request - 如何从服务器请求中过滤掉机器人

翻译自：https://stackoverflow.com/questions/12748366 2012-10-05T14:23:58.083

391 次

1

我正在跟踪对我的服务器的所有请求，并希望从我的统计数据中过滤掉机器人/爬虫，因为它们会弄乱我正在寻找的内容：查看人类访问我网页的真实流量。

我开始使用各种列表创建 HTTP_USER_AGENT 黑名单，但新的机器人/爬虫不断出现——通常是在短时间内大量爆发。我找不到任何识别它们的好方法。

相反的解决方案是创建一个有效 HTTP_USER_AGENT 字符串的白名单，这也会有一些主要缺点。

关于这个问题有什么想法吗？

0 回答 0