web-crawler - 避免或阻止所有负载平衡的网站被抓取

Question

我们在负载平衡的环境中有一个 Umbraco 站点，我们需要确保只抓取实际的 URL，而不是不同的生产 URL。

我们只想example.com在负载均衡器在production1.example.com和production2.example.com不在时被索引。

我是否将这些 URL 的禁止规则添加到 robots.txt，或者将元nofollow标记添加到头部？还是有另一种方法可以让爬虫不索引负载平衡 URL？

score 0 · Accepted Answer

最佳解决方案：不要公开特定节点的 URL（我们通常使用本地 ip/port 来检查特定节点上的站点）。

由于您拥有这些域，因此您可以根据域提供不同的 robots.txt（使用 URL 重写）。

1 回答 1