1

我负责一个具有基本 URL 的站点,例如: https ://hello.world.com/my-site/

在https://hello.world.com/robots.txt中有一个 robots.txt 文件,内容如下:

User-agent: *
Disallow: /

我无法以任何方式编辑、删除或影响该文件。

但是,我可以将 <meta> 标记放在https://hello.world.com/my-site/下的所有页面中。我知道我可以添加,例如:

<meta name="robots" content="index,follow">

我的问题是:谷歌和其他搜索引擎会更喜欢我在https://hello.world.com/my-site/下的元标记,还是https://hello.world.com/robots.txt

提前致谢,

大卫

4

3 回答 3

1

Robots.txt 指令是爬虫指令,而元标记是索引器指令。所有索引器指令都需要爬网。因此,如果 robots.txt 设置为禁止,您在元数据中所做的任何事情都不会产生影响。

来自https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag

抓取 URL 时会发现机器人元标记和 X-Robots-Tag HTTP 标头。如果不允许通过 robots.txt 文件抓取页面,则将找不到任何有关索引或服务指令的信息,因此将被忽略。如果必须遵循索引或服务指令,则不能禁止抓取包含这些指令的 URL。

(另见: http: //moz.com/blog/robots-exclusion-protocol-101

于 2013-08-16T18:18:01.350 回答
0

注册并登录到您的谷歌网站管理员控制台,看看您是否可以覆盖其中的 robots.txt 设置 - 有一个部分,但我不知道它是否允许您覆盖或只是提供提示。

一定要继续尝试更改 robots.txt 文件 - 元标记不能覆盖 robots.txt 文件,因为 robots.txt 文件本质上等同于“crawl”/“nocrawl”而不是“index”/“noindex”之类的消息 - 所以当谷歌发现它无法抓取时,它永远不会检查它是否可以索引,但即使它可以它仍然无法抓取。

于 2013-12-02T11:46:33.397 回答
-1

谷歌将使用两者,首先是 robots.txt 以查看他们可以访问的路径。

然后 Google 会寻找 Meta,使用 Meta,您可以通过脚本更好地控制他们将哪些页面放入索引和/或关注中。

我认为你应该同时使用两者。将 Google 不应该看到的所有目录(如 /js)放在 robots.txt 中,并从 Controller Script 中控制 Meta Tag,因此您可以设置“noindex,follow”作为示例。您不能对 robots.txt 执行诸如“noindex,follow”之类的操作。

于 2011-02-23T10:22:08.360 回答