2

我知道用户代理是一个指标,但这很容易被欺骗。还有哪些其他可靠指标可以表明访问者确实是机器人?标题不一致?是否请求图像/javascript?谢谢!

4

6 回答 6

4

CVSTrac 使用蜜罐页面来完成此操作。这是一个链接到网站某处的页面,爬虫可以到达它,但人类通常会忽略它。CVSTrac 更进一步,允许用户证明他是人类。

于 2009-08-27T18:30:47.687 回答
3

“是否请求图像/javascript?” 我会选择这个,但是 Google 和其他人现在要求图像和 javascript 文件。

请求时间速度如何?机器人阅读您的内容的速度比人类快得多。

于 2009-08-27T18:28:16.663 回答
2

我们要寻找 4 件事:

  • 用户代理字符串。这很容易伪造,但爬虫通常会使用自己独特的用户代理字符串。

  • 页面的访问速度,如果它们每半秒左右访问超过一个,这通常是一个很好的指标

  • 如果他们只请求 HTML,或者如果他们请求整个页面。一些爬虫只会询问 HTML 结构。这通常是一个很好的提示。

  • 传入的网址

于 2009-08-27T18:31:46.843 回答
2

各种反向验证码也可以提供帮助;您可以使用 display: none 创建一个文本输入字段;在它的样式属性(或您的样式表)中。如果它被发布到,那么您很可能正在与机器人打交道。

编辑:这实际上是在我的 RSS 阅读器中聚合的东西,如果我能找到源代码,我会链接一个很好的例子。

于 2009-08-27T19:42:04.953 回答
1

看看Bad Behavior,这是一个采用多种机器人检测技术的库

于 2009-08-27T19:39:19.157 回答
0

这不是验证的发明目的吗?

于 2009-08-27T18:29:41.527 回答