cdn - 您如何禁止在源服务器上进行爬网，但又让 robots.txt 正确传播？

Question

我遇到了一个相当独特的问题。如果您处理扩展大型站点并与 Akamai 等公司合作，您将拥有 Akamai 与之通信的源服务器。无论您为 Akamai 提供什么服务，它们都会在其 CDN 上传播。

但是你如何处理 robots.txt？您不希望 Google 抓取您的来源。这可能是一个巨大的安全问题。想想拒绝服务攻击。

但是，如果您使用“禁止”在您的来源上提供 robots.txt，那么您的整个网站将无法抓取！

我能想到的唯一解决方案是为 Akamai 和全世界提供不同的 robots.txt。禁止世界，但允许 Akamai。但这是非常 hacky 并且容易出现很多问题，以至于我一想到它就会畏缩。

（当然，原始服务器不应该对公众可见，但我敢说大多数是出于实际原因......）

协议似乎应该更好地处理一个问题。或者也许允许在搜索引擎的网站管理员工具中使用特定于站点的隐藏 robots.txt...

想法？

score 1 · Accepted Answer

如果您真的不希望您的来源公开，请使用防火墙/访问控制来限制对 Akamai 以外的任何主机的访问 - 这是避免错误的最佳方法，也是阻止仅扫描公共 IP 的机器人和攻击者的唯一方法范围寻找网络服务器。

也就是说，如果您只想避免非恶意蜘蛛，请考虑在您的源服务器上使用重定向，它将任何没有指定您的公共主机名的 Host 标头的请求重定向到官方名称。如果您有规范主机名的变体，您通常想要这样的东西以避免混淆或搜索排名稀释的问题。对于 Apache，这可以使用mod_rewrite甚至是默认服务器具有RedirectPermanent / http://canonicalname.example.com/.

如果您确实使用了这种方法，您可以在必要时简单地将生产名称添加到测试系统的主机文件中，或者也可以创建一个仅限内部的主机名并将其列入白名单（例如cdn-bypass.mycorp.com），以便您可以在需要时直接访问源。

cdn - 您如何禁止在源服务器上进行爬网，但又让 robots.txt 正确传播？

1 回答 1

Related

Reference