search - robots.txt 带有 Disallow 和允许的元标记

Question

我负责一个具有基本 URL 的站点，例如： https ://hello.world.com/my-site/

在https://hello.world.com/robots.txt中有一个 robots.txt 文件，内容如下：

User-agent: *
Disallow: /

我无法以任何方式编辑、删除或影响该文件。

但是，我可以将 <meta> 标记放在https://hello.world.com/my-site/下的所有页面中。我知道我可以添加，例如：

<meta name="robots" content="index,follow">

我的问题是：谷歌和其他搜索引擎会更喜欢我在https://hello.world.com/my-site/下的元标记，还是https://hello.world.com/robots.txt？

提前致谢，

大卫

score 1 · Accepted Answer

Robots.txt 指令是爬虫指令，而元标记是索引器指令。所有索引器指令都需要爬网。因此，如果 robots.txt 设置为禁止，您在元数据中所做的任何事情都不会产生影响。

来自https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag

抓取 URL 时会发现机器人元标记和 X-Robots-Tag HTTP 标头。如果不允许通过 robots.txt 文件抓取页面，则将找不到任何有关索引或服务指令的信息，因此将被忽略。如果必须遵循索引或服务指令，则不能禁止抓取包含这些指令的 URL。

（另见： http: //moz.com/blog/robots-exclusion-protocol-101）

score 0 · Accepted Answer

注册并登录到您的谷歌网站管理员控制台，看看您是否可以覆盖其中的 robots.txt 设置 - 有一个部分，但我不知道它是否允许您覆盖或只是提供提示。

一定要继续尝试更改 robots.txt 文件 - 元标记不能覆盖 robots.txt 文件，因为 robots.txt 文件本质上等同于“crawl”/“nocrawl”而不是“index”/“noindex”之类的消息 - 所以当谷歌发现它无法抓取时，它永远不会检查它是否可以索引，但即使它可以它仍然无法抓取。

score -1 · Accepted Answer

谷歌将使用两者，首先是 robots.txt 以查看他们可以访问的路径。

然后 Google 会寻找 Meta，使用 Meta，您可以通过脚本更好地控制他们将哪些页面放入索引和/或关注中。

我认为你应该同时使用两者。将 Google 不应该看到的所有目录（如 /js）放在 robots.txt 中，并从 Controller Script 中控制 Meta Tag，因此您可以设置“noindex,follow”作为示例。您不能对 robots.txt 执行诸如“noindex,follow”之类的操作。

search - robots.txt 带有 Disallow 和允许的元标记

3 回答 3

Related

Reference