1

在被较早的问题难住之后:SO google-analytics-domain-data-without-filtering

我一直在试验我自己的一个非常基本的分析系统。

MySQL 表:

hit_id, subsite_id, timestamp, ip, url

subsite_id 让我深入到一个文件夹(如上一个问题中所述)。

我现在可以获得以下指标:

  • 页面浏览量 - 按 subsite_id 和日期分组
  • 唯一页面浏览量 - 按 subsite_id、日期、url、IP 分组(不一定 Google 是如何做到的!)
  • 通常的“访问最多的页面”、“可能访问的时间”等。

我现在将我的数据与 Google Analytics 中的数据进行了比较,发现Google 每个指标的值都较低。即,我自己的设置比 Google 计算的点击次数更多。

所以到目前为止,我已经开始对各种网络爬虫、谷歌、雅虎和 Dotbot 的 IP 进行打折。

简短的问题:

  1. 是否值得我整理所有主要爬虫的列表以进行折扣,是否有可能定期更改的列表?
  2. 谷歌还会对 GA 数据应用其他明显的过滤器吗?
  3. 您会收集哪些其他数据可能会在以后使用?
  4. Google 使用哪些变量来计算网站的入口搜索关键字?

这些数据只会在内部用于我们自己的“子网站排名系统”,但我想向我的用户展示一些基本数据(页面浏览量、最受欢迎的页面等)以供他们参考。

4

3 回答 3

1

许多人出于隐私原因阻止了 Google Analytics。

于 2010-03-23T14:03:33.117 回答
0

最大的原因是用户必须启用 JavaScript 并加载整个页面,因为代码通常位于页脚中。Awstars,像您这样的其他服务器端解决方案将获得一切。另外,分析在识别机器人和爬虫方面做得非常好。

于 2010-03-24T03:29:15.987 回答
0

客户端钻机与服务器端的报告不足似乎是这些比较的常见结果。

当我遇到这些研究时,这是我试图调和这种差异的方法:

记录在服务器端收集但不记录在客户端的数据源:

  • 来自不支持 javascript的移动设备的点击 (这可能是两种收集技术之间差异的一个重要来源——例如,1 月 7 日的comScore 研究表明 19% 的英国互联网用户通过移动设备访问互联网)

  • 来自蜘蛛、机器人(你已经提到过)的命中

与 javascript 页面标签相比,服务器端收集的数据源/事件倾向于以更高的保真度(更少的误报)记录:

  • 来自防火墙后面的用户的点击,特别是企业防火墙——防火墙阻止页面标签,加上一些被配置为拒绝/删除 cookie。

  • 根据W3C 数据,在浏览器中禁用 javascript 的用户的点击量为 5%

  • 在页面加载之前退出页面的用户的点击量。同样,这是一个比你想象的更大的差异来源。支持这一点的最常被引用的研究是由 Stone Temple Consulting 进行的,该研究表明,配置相同 Web 分析系统的两个相同站点之间的唯一访问者流量差异,但差异仅在于 js 跟踪代码放置在一个站点的页面底部,另一个站点的页面顶部- 是4.3 %


FWIW,这是我用来删除/识别蜘蛛、机器人等的方案:

  1. 监控我们的 robots.txt文件的请求:然后当然过滤来自相同 IP 地址 + 用户代理的所有其他请求(当然,并非所有蜘蛛都会请求 robots.txt,但有微小的错误,任何对该资源的请求都可能是机器人。

  2. 将用户代理和 ip 地址与已发布的列表进行比较:iab.netuser-agents.org发布了这两个似乎最广泛用于此目的的列表

  3. 模式分析:这里没什么复杂的;我们将 (i) 页面浏览量视为时间的函数(即,在每个页面上以 200 毫秒的时间点击大量链接是有证据的);(ii)“用户”遍历站点的路径,它是系统的和完整的还是几乎如此(如遵循回溯算法);(iii) 定时访问(例如,每天凌晨 3 点)。

于 2010-03-24T02:51:16.437 回答