网站分析是对互联网数据进行收集、测量、分析、解释,分析结果汇编成为报告,供人们更深入地理解网站的各项应用,并对这些应用进行优化和改进。——Wikipedia(大百科全书)对网站分析的定义。
网站分析不只是一个简单的流量分析,它更多的作用在于商业价值的研究和分析。例如,如网站分析成功地用于对印刷广告的推广效果分析,帮助广告主监测广告前后的流量变化。网站分析中对访问者人数的精确测量、对页面点击量的详细统计、对访问者的地理特征信息分析等都是商业市场研究的重要依据。 一般网站分析可以划分为“站外”和“站内”两种分析模式。站外分析是使用技术手段对网站从外部进行分析。这种分析把互联网看作一个整体,给出网站的整体流量份额(排名),发现网站的潜在市场价值。最典型的站外分析工具是alex。 站内分析主要针对网站访问者的背景和行为展开,主要揭示网站内容和访问者的作用关系。例如,站内分析可以找出那些页面内容是访问者最喜欢看的,哪些页面可以更有效地驱动网购人决定下单。站内分析可以清晰地显示网站商业内涵的因果关系,找出改进商业产出的KPI(关键贡献指标),为改进网站的商业效能指明方向。
从历史上看,网站分析主要是指站内分析。然而由于技术的发展,现在的分析方法、角度、手段和工具等越来越使两种分析相融合。但站内分析仍然是最重要的分析方向,本文下面的部分主要涉及站内分析的内容。
有许多公司提供站内分析的软件系统或干脆提供分析服务。从收集数据的方法来讲,站内网站分析有两种:一种是使用日志文件(logfile)数据,这种数据由网站的web服务器记录。事实上,客户在网站上的每个操作动作,web服务器都会详细地记录下来,因此,可以使用日志文件对网站访问行为进行统计分析;第二种数据收集方式就是在网页上植入数据收集代码(JavaScript脚本)。这些脚本往往把数据发送到一个专门的数据分析服务器上,专业服务器对收集的数据进行加工分析。这两种分析都可以生成比较详细的网站流量分析报告。 除此之外,还有一些其它数据收集来源,如邮件回复率(阅读率)、直邮数据收集、广告流量收集等。
Web服务器日志(logfile)分析技术
网站服务器最初设计了对访问者的点击记录,主要是目的是记录点击事件在技术上是否成功。不久人们发现,可以使用一些数据分析工具对这些logfile日志进行分析,用于统计网站的访问量,由此发展出来众多网站日志分析工具和系统。 早在上个世纪九十年代,网站分析主要统计客户对网站的请求数量(hits)。在当时,一个网页就只有一个html文件(全部由文字组成),所以请求量就是网
页点击量(也即访问量)。第一个日志分析系统由IPRO公司于1994年在美国推出。但随着网页中引入图像文件,客户点击一个网页将产生数个服务器请求。例如,一个网页含有2个图像文件,当用户打开这个网页时,浏览器向服务器产生3个请求,一个是html文件的请求,另外两个是2个图像文件的请求。这样,如果与当初一样分析用户的请求,就是三次,实际上只有一个有效的用户点击。 在上个世纪90年代中期,网站统计分析中引入两个更重要的指标来更准确地记录人们的真实访问行为:即现在最常用的PV(Page Views页面浏览量)和访问人次Visits(或叫作会话Session)。一个PV定义为用户从网站上下载一个完整的页面,不管这个页面内含有多少链接或图像等多媒体文件;一个访问人次定义为同一个人在网站上停留预定的一段时间(如30分钟),在这段时间内,客户可能点击多个页面,但只算作一个访问会话(人次)。PV和访问人次(会话)已经成为最常用的统计指标。
在上个世纪90年代后期出现了网站搜索引擎机器人,搜索引擎机器人按照网站链接从网站首页开始下载网站的所有页面。这些下载也会产生网站流量,但这些流量显然不是真人访问网站产生的流量。所幸的是,搜索引擎内容抓取机器人都有特殊标志,在统计时可以剔除由此产生的流量,从而显示出人们访问网站的真实流量。但分析搜索引擎机器人的访问行为现在也变得越来越有商业价值。 Log日志分析遇到的另一个重要问题是动态IP技术和使用代理服务器共享上网。动态IP使得原来利用IP判断访问来源的方式变得不准确,而共享上网可能漏记访问者,因为一组共享上网的用户在服务器中只显示一个共享的IP。这两个难题都可以使用一个叫Cookies的技术来克服。Cookie是网站在每位来访的用户计算机上打上一个标记,当用户下次再来访问时,网站可以识别这个标志,不管这些用户使用的是动态IP,还是共享IP上网,都可以统计真实的客户数量。 现在的浏览器普遍采用缓存技术(Web Caches),这也给日志分析技术带来一定的挑战。当用户第一次访问页面时,浏览器会把这个页面缓存在用户的本地计算机中,当用户再次打开这个网页时,浏览器将不会向服务器发出请求,而会简单地从缓存中取出这个页面。这样虽然用户打开了两次页面,服务器确只记录了一次PV。当然在服务器中可以设定是否让用户缓存页面,但如果不使用缓存,服务器的负载就会增加,会影响用户的访问体验。
网页植入代码技术
网页代码植入技术是随着第三方统计服务的流行而逐步发展起来的。早在上个世纪90年代中期,你经常可以看到网页下部有一个图形方式的计数器,用以显示网页的PV数。获得数据的方法是在你的网页上添加一个不可见的图像文件,这个图像文件的URL地址是指向网站以外的第三方服务器,当你的网页被浏览器下载时,这个图像文件同时被下载,第三方服务器就可以记录一次PV。90年代后期,图像文件逐步被JavaScript脚本代码取代,出现了后来被称为网页臭虫(Web bugs)的网页标签技术(page tagging)。JavaScript脚本代码比图像文件携带更多的信息,脚本的内容可以在远程修改,这给第三方统计服务商提供了极大
的方便,但同时也给网站主带来了极大的安全隐患。这种技术等于网站主给第三方统计服务商在网站上开了一个后门,第三方服务商可以在你的网站上显示任何他要显示的内容,可以对你的客户做任何他想要做的事情,这些事情你甚至无法预知。
使用第三方服务器进行统计还可能遇到另外一个问题:当客户点击网站时,他的浏览器要发出至少两次DNS(域名)查询,并且连接两个不同的服务器。当第三方服务器遇到故障时,尽管你的服务器可以正常提供服务,但你的网页也不能正常打开。如果第三方服务器服务的客户太多,负载过大,也可能拖累你的网页速度变,使其变得很慢。
伴随着Ajax技术的成熟和广泛应用,出现了一个使用此技术的替代方案,即网页回叫服务器技术。大致的技术原理是这样的,客户浏览器下载网页以后,网页中包含的Ajax代码重新向指定的服务器发出请求,传回客户的基本信息。
JavaScript脚本代码因为要与网页同时抢占系统资源,会出现上述提到的问题,而Ajax技术是网页完全下载以后再“工作”,所以对网页的下载速度影响不大。即使Ajax代码没有完成它的“工作”,也不会影响到客户的正常浏览。 作者:北京海市经纬网络技术开发有限公司 Forest 网址:http://www.ehm.com.cn 邮箱:biz@ehm.com.cn
转载请注明出处,并要全文转载。
请看下篇:《日志分析与脚本植入技术对比》
因篇幅问题不能全部显示,请点此查看更多更全内容