我正在尝试获取 Web 服务器上某些文件的准确下载编号。我查看了用户代理,其中一些显然是机器人或网络爬虫,但对于很多人我不确定,它们可能是也可能不是网络爬虫,它们会导致大量下载,所以了解这些对我来说很重要。
是否有一些已知的网络爬虫列表以及一些文档,如用户代理、IP、行为等?
我对官方的不感兴趣,比如谷歌的、雅虎的或微软的。这些人通常表现良好且自我认同。
我正在尝试获取 Web 服务器上某些文件的准确下载编号。我查看了用户代理,其中一些显然是机器人或网络爬虫,但对于很多人我不确定,它们可能是也可能不是网络爬虫,它们会导致大量下载,所以了解这些对我来说很重要。
是否有一些已知的网络爬虫列表以及一些文档,如用户代理、IP、行为等?
我对官方的不感兴趣,比如谷歌的、雅虎的或微软的。这些人通常表现良好且自我认同。
我通常使用http://www.user-agents.org/作为参考,希望对您有所帮助。
您也可以尝试http://www.robotstxt.org/db.html或http://www.botsvsbrowsers.com。
我在https://github.com/monperrus/crawler-user-agents/维护着爬虫的用户代理模式列表。
它是协作的,您可以通过拉取请求为它做出贡献。
http://www.robotstxt.org/db.html是一个很好的起点。如果您也需要,他们有一个可自动化的原始饲料。 http://www.botsvsbrowsers.com/也很有帮助。
不幸的是,我们发现机器人活动太多且变化多端,无法准确过滤。如果您想要准确的下载计数,最好的办法是要求 javascript 来触发下载。这基本上是唯一能可靠过滤掉机器人的东西。这也是为什么现在所有的网站流量分析引擎都是基于 javascript 的。