2

有没有办法通过使用 PhantomJS 和/或像Anemone这样的 ruby​​ 爬虫来防止伪造的 Google Analytics 统计数据?

我们的监控工具(基于两者)从我们的客户那里抓取网站并更新特定域中每个链接的链接状态。

这个问题模拟了巨大的流量。

有没有办法用 cookie、标题或其他东西说“我是机器人,不要跟踪我”之类的话?

(将爬虫 IP 添加到 Google Analytics [作为过滤器] 可能不是最佳解决方案)

提前致谢

4

3 回答 3

3

乔,尝试设置高级排除过滤器- 使用字段浏览器并进入“过滤器模式”,为幻影(或任何其他用户代理)输入您的用户代理的名称 - 在您的技术->浏览器和操作系统中查找所需的名称报告)。

在此处输入图像描述

于 2013-11-15T21:59:44.583 回答
1

我找到了针对这个特定问题的快速解决方案。从所有 Google Analytics 统计信息中排除执行 js(如 phantomjs)的爬虫的最简单方法是通过/etc/hosts简单地阻止 Google Analytics 域。

127.0.0.1    www.google-analytics.com
127.0.0.1    google-analytics.com

这是防止虚假数据的最简单方法。这样,您不必为所有客户端添加过滤器。

(感谢其他答案)

于 2013-11-18T14:58:12.500 回答
0

IP 过滤可能还不够,但可能通过用户代理字符串过滤(可以用幻像任意设置)?那将是过滤器中的“浏览器”字段。

于 2013-11-15T12:24:46.093 回答