3

我正在使用谷歌分析(或任何其他)可以为我提供的特殊功能进行自己的访问者跟踪,因为它是定制的。我在脚本接近尾声时调用了这个函数,但很快就遇到了我们的客户,他们遇到了数千个被机器人调用的页面(我假设是谷歌),我的表在一段时间内填满了大约 1,000,000 条无用和欺骗性的记录月。

大多数人使用的方法是他们在页面底部使用 Javascript,机器人不操作 javascript,所以这是一个简单的修复——但我正在寻找 PHP 解决方案。

我做的最后一件事是使用 PHP get_browser

http://us2.php.net/manual/en/function.get-browser.php

并检查crawler方面。这没有用。

我看过这篇文章: 阻止脚本编写者每秒数百次抨击您的网站

但主要的解决方案是做一些类似于 SO 的事情,它会提出一个验证码。我的意思不是阻止机器人——我希望页面被抓取。我只是不想在访客在那里时发送他们的跟踪数据。

我现在切换到 Javascript 解决方案,执行 AJAX 请求,因为我们的用户变得烦躁和不准确的统计数据。

4

1 回答 1

1

我以前从未使用过该功能 - 很有趣。

现在,所有主要的搜索引擎都将使用不同的 User-Agent 标头声明自己,我假设该函数从中获取大部分信息 - 它可能将 User-Agent 值与查找表匹配,并且可能是未正确识别较新的索引器。

您可以编写自己的列表,并针对它测试 $_SERVER['HTTP_USER_AGENT'] 超全局 - 但您必须监视更新。

它也不会阻止不良或恶意的索引器,因为它们倾向于将自己伪装成普通浏览器(就像来自客户端的任何其他标头一样,User-Agent 是不可信的)。

于 2010-05-27T07:52:43.453 回答