google-analytics - 基本网站分析与 Google 数据不符

Question

我一直在试验我自己的一个非常基本的分析系统。

MySQL 表：

hit_id, subsite_id, timestamp, ip, url

subsite_id 让我深入到一个文件夹（如上一个问题中所述）。

我现在可以获得以下指标：

我现在将我的数据与 Google Analytics 中的数据进行了比较，发现Google 每个指标的值都较低。即，我自己的设置比 Google 计算的点击次数更多。

所以到目前为止，我已经开始对各种网络爬虫、谷歌、雅虎和 Dotbot 的 IP 进行打折。

简短的问题：

这些数据只会在内部用于我们自己的“子网站排名系统”，但我想向我的用户展示一些基本数据（页面浏览量、最受欢迎的页面等）以供他们参考。

score 1 · Accepted Answer

1

许多人出于隐私原因阻止了 Google Analytics。

于 2010-03-23T14:03:33.117 回答

score 0 · Accepted Answer

最大的原因是用户必须启用 JavaScript 并加载整个页面，因为代码通常位于页脚中。Awstars，像您这样的其他服务器端解决方案将获得一切。另外，分析在识别机器人和爬虫方面做得非常好。

score 0 · Accepted Answer

客户端钻机与服务器端的报告不足似乎是这些比较的常见结果。

当我遇到这些研究时，这是我试图调和这种差异的方法：

记录在服务器端收集但不记录在客户端的数据源：

来自不支持 javascript的移动设备的点击（这可能是两种收集技术之间差异的一个重要来源——例如，1 月 7 日的comScore 研究表明 19% 的英国互联网用户通过移动设备访问互联网）
来自蜘蛛、机器人（你已经提到过）的命中

与 javascript 页面标签相比，服务器端收集的数据源/事件倾向于以更高的保真度（更少的误报）记录：

来自防火墙后面的用户的点击，特别是企业防火墙——防火墙阻止页面标签，加上一些被配置为拒绝/删除 cookie。
根据W3C 数据，在浏览器中禁用 javascript 的用户的点击量为 5%
在页面加载之前退出页面的用户的点击量。同样，这是一个比你想象的更大的差异来源。支持这一点的最常被引用的研究是由 Stone Temple Consulting 进行的，该研究表明，配置相同 Web 分析系统的两个相同站点之间的唯一访问者流量差异，但差异仅在于 js 跟踪代码放置在一个站点的页面底部，另一个站点的页面顶部- 是4.3 %

FWIW，这是我用来删除/识别蜘蛛、机器人等的方案：

监控我们的 robots.txt文件的请求：然后当然过滤来自相同 IP 地址 + 用户代理的所有其他请求（当然，并非所有蜘蛛都会请求 robots.txt，但有微小的错误，任何对该资源的请求都可能是机器人。
将用户代理和 ip 地址与已发布的列表进行比较：iab.net和 user-agents.org发布了这两个似乎最广泛用于此目的的列表
模式分析：这里没什么复杂的；我们将 (i) 页面浏览量视为时间的函数（即，在每个页面上以 200 毫秒的时间点击大量链接是有证据的）；(ii)“用户”遍历站点的路径，它是系统的和完整的还是几乎如此（如遵循回溯算法）；(iii) 定时访问（例如，每天凌晨 3 点）。

3 回答 3