5

我一直在考虑禁止除 Ask、Google、Microsoft 和 Yahoo! 之外的所有爬虫。从我的网站。

这背后的原因是我从未见过任何其他网络爬虫产生任何流量。

我的问题是:

  1. 有什么理由不这样做吗?
  2. 有人做过吗?
  3. 你注意到任何负面影响了吗?

更新:
到目前为止,我使用黑名单方法:如果我不喜欢爬虫,我将它们添加到禁止列表中。
我不喜欢列入黑名单,因为这是一个永无止境的故事:那里总是有更多的爬虫。

我不太担心真正丑陋的行为不端的爬虫,它们会被自动检测并阻止。(无论如何,他们通常不要求 robots.txt :)

然而,许多爬虫实际上并没有以任何方式行为不端,它们似乎并没有为我/我的客户创造任何价值。
例如,有几个爬虫为网站提供动力,声称他们将成为下一个谷歌;只有更好。我从未见过来自他们的任何流量,而且我对他们变得比上述四个搜索引擎中的任何一个都好持怀疑态度。

更新 2:
一段时间以来,我一直在分析几个站点的流量,似乎对于合理的小型站点,每天有 100 个唯一的人类访问者(=我无法识别为非人类的访问者)。大约 52% 的生成流量来自自动化流程。

60% 的自动访问者没有阅读 robots.txt,40%(占总流量的 21%)确实请求 robots.txt。(这包括 Ask、Google、Microsoft 和 Yahoo!)

所以我的想法是,如果我阻止所有似乎对我没有任何价值的表现良好的爬虫,我可以将带宽使用和服务器负载减少大约 12% - 17%。

4

5 回答 5

4

互联网是一种发布机制。如果你想将你的网站列入白名单,那你就反对,但这没关系。

想将您的网站列入白名单吗?

请记住,忽略 robots.txt 的行为不端的机器人无论如何都不会受到影响(显然),而行为良好的机器人可能是有充分理由的,只是这对你来说是不透明的。

于 2009-02-13T12:20:06.367 回答
3

虽然抓取您网站的其他网站可能不会以您的方式发送任何内容,但它们本身可能被 google 等编入索引,因此增加您的网页排名,阻止它们进入您的网站可能会影响这一点。

于 2009-01-28T12:57:16.260 回答
3

有什么理由不这样做吗?

您是否希望被排除在可能包括您不了解的网站并且间接为您带来大量内容的事情之外。

如果一些奇怪的爬虫正在攻击您的网站并占用您的带宽,您可能想要这样做,但这些爬虫很可能也不会尊重您的 robots.txt。

检查您的日志文件并查看您拥有哪些爬虫以及它们占用的带宽比例。可能有更直接的方法来阻止正在轰炸您网站的流量。

于 2009-01-28T13:06:48.270 回答
2

这目前有点尴尬,因为没有“允许”字段。简单的方法是将所有不允许的文件放到一个单独的目录中,比如“stuff”,然后将一个文件留在该目录的上一级。

于 2011-05-26T13:16:11.020 回答
1

我唯一担心的是你可能会错过下一件大事。

很长一段时间,AltaVista 都是搜索引擎。可能比现在的谷歌还要多。(没有 bing 或 Ask,Yahoo 是一个目录,而不是一个搜索引擎)。当时除了 Altavista 之外所有网站都被屏蔽的网站永远不会看到来自 Google 的流量,因此永远不会知道它的受欢迎程度,除非他们从另一个来源听说过,这可能会使他们在一段时间内处于相当不利的地位。

Pagerank 往往偏向于较旧的网站。您不希望显得比实际更新,因为您无缘无故地阻止了通过 robots.txt 的访问。这些家伙:http ://www.dotnetdotcom.org/现在可能完全没用,但也许在 5 年后,你现在不在他们的索引中的事实将在下一个大型搜索引擎中对你不利。

于 2011-01-24T18:23:10.297 回答