0

我们在负载平衡的环境中有一个 Umbraco 站点,我们需要确保只抓取实际的 URL,而不是不同的生产 URL。

我们只想example.com在负载均衡器在production1.example.comproduction2.example.com不在时被索引。

我是否将这些 URL 的禁止规则添加到 robots.txt,或者将元nofollow标记添加到头部?还是有另一种方法可以让爬虫不索引负载平衡 URL?

4

1 回答 1

0

最佳解决方案:不要公开特定节点的 URL(我们通常使用本地 ip/port 来检查特定节点上的站点)。

由于您拥有这些域,因此您可以根据域提供不同的 robots.txt(使用 URL 重写)。

于 2012-05-18T06:39:00.003 回答