我遇到了一个相当独特的问题。如果您处理扩展大型站点并与 Akamai 等公司合作,您将拥有 Akamai 与之通信的源服务器。无论您为 Akamai 提供什么服务,它们都会在其 CDN 上传播。
但是你如何处理 robots.txt?您不希望 Google 抓取您的来源。这可能是一个巨大的安全问题。想想拒绝服务攻击。
但是,如果您使用“禁止”在您的来源上提供 robots.txt,那么您的整个网站将无法抓取!
我能想到的唯一解决方案是为 Akamai 和全世界提供不同的 robots.txt。禁止世界,但允许 Akamai。但这是非常 hacky 并且容易出现很多问题,以至于我一想到它就会畏缩。
(当然,原始服务器不应该对公众可见,但我敢说大多数是出于实际原因......)
协议似乎应该更好地处理一个问题。或者也许允许在搜索引擎的网站管理员工具中使用特定于站点的隐藏 robots.txt...
想法?