我一直在考虑禁止除 Ask、Google、Microsoft 和 Yahoo! 之外的所有爬虫。从我的网站。
这背后的原因是我从未见过任何其他网络爬虫产生任何流量。
我的问题是:
- 有什么理由不这样做吗?
- 有人做过吗?
- 你注意到任何负面影响了吗?
更新:
到目前为止,我使用黑名单方法:如果我不喜欢爬虫,我将它们添加到禁止列表中。
我不喜欢列入黑名单,因为这是一个永无止境的故事:那里总是有更多的爬虫。
我不太担心真正丑陋的行为不端的爬虫,它们会被自动检测并阻止。(无论如何,他们通常不要求 robots.txt :)
然而,许多爬虫实际上并没有以任何方式行为不端,它们似乎并没有为我/我的客户创造任何价值。
例如,有几个爬虫为网站提供动力,声称他们将成为下一个谷歌;只有更好。我从未见过来自他们的任何流量,而且我对他们变得比上述四个搜索引擎中的任何一个都好持怀疑态度。
更新 2:
一段时间以来,我一直在分析几个站点的流量,似乎对于合理的小型站点,每天有 100 个唯一的人类访问者(=我无法识别为非人类的访问者)。大约 52% 的生成流量来自自动化流程。
60% 的自动访问者没有阅读 robots.txt,40%(占总流量的 21%)确实请求 robots.txt。(这包括 Ask、Google、Microsoft 和 Yahoo!)
所以我的想法是,如果我阻止所有似乎对我没有任何价值的表现良好的爬虫,我可以将带宽使用和服务器负载减少大约 12% - 17%。