2

我有这样的网址:/products/:product_id/deals/new /products/:product_id/deals/index

我想在我的 robots.txt 文件中禁止“交易”文件夹。

[编辑]我想禁止 Google、Yahoo 和 Bing Bots 使用此文件夹。有谁知道这些机器人是否支持通配符,因此会支持以下规则?

Disallow: /products/*/deals

另外...您对 robots.txt 规则有什么非常好的教程吗?因为我没能找到一个“真正”好的我可以使用一个......

最后一个问题:robots.txt 是处理这个问题的最佳方式吗?还是我应该更好地使用“noindex”元?

谢谢大家!:)

4

2 回答 2

2

是的,所有主要搜索引擎都支持基本通配符*,您的解决方案将禁止您的交易目录。

了解 robots.txt 的最佳地点确实是Google 开发者页面。它提供了大量的例子,说明什么有效,什么无效。例如,很多人不知道 robots.txt 文件是特定于协议的。因此,如果您想阻止https连接上的页面,您需要确保您在https://yoursite.com/robots.txt有一个 robots.txt

您还可以在通过Google Webmaster Tools应用新的 robots.txt 文件之前对其进行测试。基本上,您可以在部署之前使用搜索引擎验证它是否真的可以工作。

关于使用 robots.txt 阻止某些内容或仅向页面添加 noindex,我更倾向于在大多数情况下使用 noindex,除非我知道我根本不希望搜索引擎抓取我网站的该部分。

有一些取舍。当您完全阻止搜索引擎时,您可以节省一些“抓取预算”。因此,搜索引擎会抓取其他页面,然后在您不希望他们访问的页面上“浪费”他们的时间。但是,这些 URL 仍然可以出现在搜索结果中。

如果您绝对不希望这些页面有任何搜索推荐流量,最好使用 noindex 指令。此外,如果您经常链接到交易页面,noindex 不仅会将其从搜索结果中删除,而且任何链接值/PageRank 都可以流经这些页面并可以相应地进行计算。如果你阻止它们被抓取,它就像一个黑洞。

于 2013-06-14T21:30:37.023 回答
0

如果您不确定您在 robots.txt 中的语法是否正确,您可以在https://www.google.com/webmasters上进行测试(看看是否有错误)。此外,您可以输入页面 URL,该工具会根据您的 robots.txt 告诉您是否应该阻止它。

于 2017-02-15T20:23:35.683 回答