robots.txt - Robots.txt 不允许

Question

我目前正在使用一个电子商务系统，该系统会抛出数百个潜在的重复页面 url，并试图找出如何通过 robots.txt 隐藏它们，直到开发人员能够在那里进行排序......出去。

我已经设法阻止了其中的大多数，但被困在最后一种类型上，所以问题是：我有 4 个指向具有以下结构的同一产品页面的 url，我如何阻止第一个而不是其他的。

到目前为止，我能想到的唯一想法是使用：

Disallow: /*?id=*/

然而，这会阻止一切......</p>

编辑：我相信我可能已经找到了一种方法，方法是设置一个 robots.txt 文件来禁止所有，然后只允许我想要的特定路径再次低于该路径，然后……再一次禁止任何特定路径。

任何人都知道这是否对使用禁止 > 允许 > 禁止的 SEO 产生负面影响。

score 2 · Accepted Answer

您可以为 rel="canonical" 属性设置元标记。这将帮助搜索引擎知道哪个 url 是“正确的”，并且在搜索结果中每个产品的 URL 不超过一个。

阅读此处了解更多信息

1 回答 1