数据工作之百度统计体验

nieweidong bio photo By nieweidong Comment
Researsh百度统计,记录此过程中的点滴和自己的看法

百度统计是什么?
一款专业网站流量分析工具,能够告诉您访客是如何找到并浏览您的网站,以及如何改善访客在您网站上的使用体验。。。。。。不多罗嗦,此处省略N百字
 
带着一些问题去研究
  • 访客属性:通过对您网站页面的监测,分析访客行为,刻画出您网站的访客属性,主要包括性别、年龄、职业和学历四个部分。这个属性怎么搞出来的,原理是什么?
    答案:访客属性是拿着访客的baiduid去passport那边获取的。大概就是passport建立了一套用户属性的服务,可以使用baiduid去取,不需要userid。
  • 平均停留时长:访客浏览某一页面时所花费的平均时长,页面的停留时长=进入下一个页面的时间-进入本页面的时间。那么第一页如果没有跳转是否有平均停留时长?
    答案:根据访客浏览两个页面之间的时间间隔来计算页面停留时间,当访客访问一个页面后没有再访问下一个页面,便无法得知访客在该页面的停留时间
  • 忠诚度是什么计算逻辑
    答案:忠诚度就是记录访客在一个月内的访问次数,次数多的忠诚度就高
  • 热力图是用户点击、鼠标移动得到的热力分析,还是其他?
    答案:热力图监控的是鼠标点击
  • 异步请求怎么统计
    答案:有JSAPI叫_trackPageview,用于发送某个指定URL的PV统计请求,通常用于AJAX页面的PV统计。
    详情还得看官方文档,地址 http://tongji.baidu.com/open/
  • 百度统计有流量限制吗?
    答案:不做任何流量限制,目前可稳定支持“每日千万以上PV”的站点流量统计和分析
  • 百度统计和站内统计数据不一样是为什么?
    答案:
    a.定义不同。如访客在未关闭浏览器的情况下30分钟内N次(N>1)访问网站,百度统计会视为1次访问
    b.跟踪技术。有基于浏览器Cookie、flash Cookie、IP+用户代理(基于IP+用户代理的方式,一般是分析日志文件来获取数据,但无法排除蜘蛛程序等来源的点击量,通常会比基于COOKIE的跟踪方式获取的流量数据更高)
    c.还有不少不一一列举,可查看 http://yingxiao.baidu.com/support/tongji/detail_2755.html
 
百度统计不能做什么
  • 不支持添加中文域名
  • 用户过少时很多报表和数据没有数,如访客数据(样本量过少不足以分析网站的访客属性)
  • 不能让你的站点起死回生...
 
有意思的关键点
  • 忠诚度:访客在您网站上的访问行为特征分布。通过访客忠诚度报告,您可以及时了解访客在您网站的行为规律以及对您网站的忠诚度。 
  • 页头访问次数:访客抵达网站页头的次数。如果您的网站打开速度太慢,或网站内容不吸引人,访客可能未等页面完全打开就离开了网站,此时计入页头访问次数,但不计入访问次数。
  • 访问时长和最后一页的关闭时间:百度统计于2012年11月1日起对访问时长算法进行优化,针对未能收到关闭时间的页面将采取以下优化方法:  1)  用户一次访问中只访问了一个页面而该页面的关闭时间未收到,则系统赋予该页面一定定值作为访问时长;  2)  用户一次访问中涉及到n(n≥2)个页面,其中第n个页面的关闭时间无法收到,则系统将前 (n-1)个页面的平均访问时长作为第n个页面的访问时长。以上调整会使得平均访问时长较原来有一定程度的下降,却更符合用户真实访问行为。
  • 访问深度: 访客一次访问会话中浏览的不同页面数
  • 访问频次: 访客一天内在网站上的访问会话总次数
  • 访问页数: 访客一次访问会话中的页面浏览量,即同一页面多次被浏览累计
  • 流失率:对指定路径对应的步骤而言,访客从该步骤进入到下一个步骤的过程中流失的比例。 本步骤的流失率=(本步骤的进入次数-下一步骤的进入次数)/本步骤的进入次数。
  • 老访客: 今日之前有过访问,且今日再次访问的访客,记为老访客。
  • 跳出率:只浏览了一个页面便离开了网站的访问次数占总的访问次数的百分比。 子目录的跳出率是指只浏览子目录中一个页面便离开的访问次数占子目录总访问次数的百分比。
  • 退出率:为从该页面跳出网站的浏览量的次数占该页面为下游带去所有浏览量的比
  • 平均停留时长&平均访问时长&平均访问页数&上次访问时间
  • 新访客数:访客中历史第一次访问网站的访客数
  • ip数和uv数不一致:在网吧或者学校等地,是共用一个IP上网的,但是实际访客数并不唯一,就可能出现IP数小于访客数;一般家庭电脑大多用ADSL拨号上网,也就是动态的IP 地址,一天可能拨好几次,但是实际访客数唯一,便会出现IP数大于uv数
  • 抵达率: 访问某网站的抵达率=访问次数/点击次数。抵达率过低,则说明较多点击未能抵达网站,需要查看网站url是否正常打开,速度是否够快。
 
 
百度统计的基友
 
  • 百度指数:以百度网页搜索和百度新闻搜索为基础的免费海量数据分析服务,用以反映不同关键词在过去一段时间里的“用户关注度”和“媒体关注度”。您可以发现、共享和挖掘互联网上最有价值的信息和资讯,直接、客观地反映社会热点、网民的兴趣和需求。
  • 百度推广:向企业提供的 按效果付费‍ 的网络营销服务,借助百度超过 80%‍ 中国搜索引擎市场份额和 60万家 联盟网站,打造了链接亿万网民和企业的供需平台,让有需求的人最便捷地找到适合自己的产品和服务,也让企业用少量投入就可以获得大量潜在客户、有效提升企业品牌影响力。
 
可借鉴的关键点
  • 维度分的比较细,可以得到更好的数据挖掘与分析
  1. 操作系统
  2. 地域分布
  3. 浏览器分布&搜索词分布
  4. 搜索引擎分布
  5. 其他来源分布(如直接访问、站内来源、其他网站)
  6. 屏幕分辨率分布
  7. 按小时/天/周/月分布
  8. 是否支持COOKIE
  9. 是否支持JAVA
  10. 网络服务提供商
  11. 语言环境
 
  • 一次访问(Session)的定义
访客在您网站上的会话(Session)次数,一次会话会浏览一个或多个页面。在百度统计里,以下三种情况会记为新的访问:
  1. 访客关闭浏览器后重新进入您的网站;
  2. 访客不关闭浏览器,但是在您网站上不活动超过30分钟,30分钟后访客再次点击您网站上的链接;
  3. 访客任何时候从其他网站到达您的网站。
就是某个页面在一次会话中被多次访问,只会计算一次pv。
  • 趋势分析
一段时间内您网站的整体流量及转化情况,您也可以选择地域与来源组合查询细分来源的流量数据
 
 
  • 最后一页的关闭时间的计算方法
  1. 用户一次访问中只访问了一个页面而该页面的关闭时间未收到,则系统赋予该页面一定定值作为访问时长;
  2. 用户一次访问中涉及到n(n≥2)个页面,其中第n个页面的关闭时间无法收到,则系统将前 (n-1)个页面的平均访问时长作为第n个页面的访问时长。
     以上调整会使得平均访问时长较原来有一定程度的下降,却更符合用户真实访问行为。
 
 
简单总结
     百度统计所提供的多种图形化报表还是不错的,虽然有些flash让我不爽:)
     有很多有意思的定义值得借鉴和学习,如页面关闭时间的计算方法、pv计算的方法。
     后续ASAE平台会借鉴其经验,如趋势分析、访问深度分析等等。
     
 
     有人问我数据分析有什么用,我会告诉他:“不能起死回生,可能锦上添花”。
 
comments powered by Disqus