0

我在我的 root.txt 文件中找到了这个

禁止:/搜索

这是什么意思?

4

3 回答 3

2

如果您谈论的是 robots.txt 文件,那么它会向网络爬虫表明他们要避免进入该主机上以 /search 开头的 URL。您的 robots.txt 文件与机器人排除标准相关。

您在问题标题中提到“robot.txt”,在正文中提到“root.txt”。如果这确实是robots.txt文件,则需要将其命名为“robots.txt”,否则根本没有作用。

于 2012-12-18T20:15:00.843 回答
0

它指示机器人/爬虫/蜘蛛他们不应访问该文件夹中的任何内容或该 URL 的变体,例如以下示例:

/search
/search?term=x
/search/page/
/search/category=y&term=x
/search/category-name/term/

关于上面关于这如何影响索引的评论(搜索引擎或其他实体是否会对 URL 进行编目),没有一个是完全正确的。

应该注意的是 robots.txt 文件中的指令是抓取指令,而不是索引指令。虽然合规机器人会在请求 URL 之前读取 robots.txt 文件并确定是否允许它们抓取该文件,但不允许规则不会阻止索引(甚至在不合规机器人的情况下,也不会阻止访问/爬行/刮)。

您会定期在 Google 中看到搜索结果的实例,其中的元描述暗示该页面已被包含但无法访问;类似于“我们无法显示描述,因为我们不允许抓取此页面”。这通常发生在 Google(或 w/e)遇到不允许的 URL 时,但认为该 URL 仍应被编目 - 在 Google 的情况下,这通常发生在高度链接和/或权威 URL 被禁止时。

为了防止索引,您最好使用页面元标记,甚至是 x-robots http 标头(对非页面资源特别有用,例如 PDF 等)。

于 2013-09-01T13:04:21.923 回答
0

“禁止:/search”告诉搜索引擎机器人不要索引和抓取那些包含“ /search ”的链接,例如如果链接是http://yourblog.blogspot.com/search.html/bla-bla-bla那么机器人不会抓取和索引此链接。

于 2015-08-22T20:13:19.237 回答