有没有办法通过使用 PhantomJS 和/或像Anemone这样的 ruby 爬虫来防止伪造的 Google Analytics 统计数据?
我们的监控工具(基于两者)从我们的客户那里抓取网站并更新特定域中每个链接的链接状态。
这个问题模拟了巨大的流量。
有没有办法用 cookie、标题或其他东西说“我是机器人,不要跟踪我”之类的话?
(将爬虫 IP 添加到 Google Analytics [作为过滤器] 可能不是最佳解决方案)
提前致谢
有没有办法通过使用 PhantomJS 和/或像Anemone这样的 ruby 爬虫来防止伪造的 Google Analytics 统计数据?
我们的监控工具(基于两者)从我们的客户那里抓取网站并更新特定域中每个链接的链接状态。
这个问题模拟了巨大的流量。
有没有办法用 cookie、标题或其他东西说“我是机器人,不要跟踪我”之类的话?
(将爬虫 IP 添加到 Google Analytics [作为过滤器] 可能不是最佳解决方案)
提前致谢
我找到了针对这个特定问题的快速解决方案。从所有 Google Analytics 统计信息中排除执行 js(如 phantomjs)的爬虫的最简单方法是通过/etc/hosts简单地阻止 Google Analytics 域。
127.0.0.1 www.google-analytics.com
127.0.0.1 google-analytics.com
这是防止虚假数据的最简单方法。这样,您不必为所有客户端添加过滤器。
(感谢其他答案)
IP 过滤可能还不够,但可能通过用户代理字符串过滤(可以用幻像任意设置)?那将是过滤器中的“浏览器”字段。