我正在跟踪对我的服务器的所有请求,并希望从我的统计数据中过滤掉机器人/爬虫,因为它们会弄乱我正在寻找的内容:查看人类访问我网页的真实流量。
我开始使用各种列表创建 HTTP_USER_AGENT 黑名单,但新的机器人/爬虫不断出现——通常是在短时间内大量爆发。我找不到任何识别它们的好方法。
相反的解决方案是创建一个有效 HTTP_USER_AGENT 字符串的白名单,这也会有一些主要缺点。
关于这个问题有什么想法吗?
我正在跟踪对我的服务器的所有请求,并希望从我的统计数据中过滤掉机器人/爬虫,因为它们会弄乱我正在寻找的内容:查看人类访问我网页的真实流量。
我开始使用各种列表创建 HTTP_USER_AGENT 黑名单,但新的机器人/爬虫不断出现——通常是在短时间内大量爆发。我找不到任何识别它们的好方法。
相反的解决方案是创建一个有效 HTTP_USER_AGENT 字符串的白名单,这也会有一些主要缺点。
关于这个问题有什么想法吗?