我在我的 root.txt 文件中找到了这个
禁止:/搜索
这是什么意思?
如果您谈论的是 robots.txt 文件,那么它会向网络爬虫表明他们要避免进入该主机上以 /search 开头的 URL。您的 robots.txt 文件与机器人排除标准相关。
您在问题标题中提到“robot.txt”,在正文中提到“root.txt”。如果这确实是robots.txt文件,则需要将其命名为“robots.txt”,否则根本没有作用。
它指示机器人/爬虫/蜘蛛他们不应访问该文件夹中的任何内容或该 URL 的变体,例如以下示例:
/search
/search?term=x
/search/page/
/search/category=y&term=x
/search/category-name/term/
关于上面关于这如何影响索引的评论(搜索引擎或其他实体是否会对 URL 进行编目),没有一个是完全正确的。
应该注意的是 robots.txt 文件中的指令是抓取指令,而不是索引指令。虽然合规机器人会在请求 URL 之前读取 robots.txt 文件并确定是否允许它们抓取该文件,但不允许规则不会阻止索引(甚至在不合规机器人的情况下,也不会阻止访问/爬行/刮)。
您会定期在 Google 中看到搜索结果的实例,其中的元描述暗示该页面已被包含但无法访问;类似于“我们无法显示描述,因为我们不允许抓取此页面”。这通常发生在 Google(或 w/e)遇到不允许的 URL 时,但认为该 URL 仍应被编目 - 在 Google 的情况下,这通常发生在高度链接和/或权威 URL 被禁止时。
为了防止索引,您最好使用页面元标记,甚至是 x-robots http 标头(对非页面资源特别有用,例如 PDF 等)。
“禁止:/search”告诉搜索引擎机器人不要索引和抓取那些包含“ /search ”的链接,例如如果链接是http://yourblog.blogspot.com/search.html/bla-bla-bla那么机器人不会抓取和索引此链接。