robots.txt - 为什么 Google 不索引我的“robots.txt”？

Question

我正在尝试让 Googlebot 网络爬虫为我的网站编制索引。我robots.txt最初的样子是这样的：

User-agent: * 
Disallow: / 
Host: www.sitename.com 
Sitemap: https://www.sitename.com/sitemap.xml

我将其更改为：

User-agent: * 
Allow: / 
Host: www.sitename.com 
Sitemap: https://www.sitename.com/sitemap.xml

只有谷歌仍然没有索引我的链接。

score 0 · Accepted Answer

我正在尝试让 Googlebot 网络爬虫为我的网站编制索引。

机器人规则与索引无关！他们只是关于爬行能力。一个页面可以被索引，即使被禁止爬取！
host指令仅受 Yandex 支持。
如果您希望所有机器人都能抓取您的网站，您的 robots.txt 文件应放在https://www.sitename.com/robots.txt下，状态码为 200，并包含：

User-agent: * Disallow: Sitemap: https://www.sitename.com/sitemap.xml

score -1 · Accepted Answer

从文档：

Robots.txt 语法可以被认为是 robots.txt 文件的“语言”。您可能会在 robots 文件中遇到五个常用术语。他们包括：

用户代理：您向其提供抓取指令的特定网络爬虫（通常是搜索引擎）。大多数用户代理的列表可以在这里找到。

Disallow：用于告诉用户代理不要抓取特定 URL 的命令。每个 URL 只允许有一个“Disallow:”行。

允许（仅适用于 Googlebot）：告诉 Googlebot 它可以访问页面或子文件夹的命令，即使其父页面或子文件夹可能被禁止。

Crawl-delay：爬虫在加载和爬取页面内容之前应该等待多少秒。请注意，Googlebot 不承认此命令，但可以在 Google Search Console 中设置抓取速度。

站点地图：用于调用与此 URL 关联的任何 XML 站点地图的位置。请注意，此命令仅受 Google、Ask、Bing 和 Yahoo 支持。

尝试在您的 robots.txt 指令中特别提及 Googlebot，例如：

User-agent: Googlebot 
Allow: /

或允许所有网络爬虫访问所有内容

User-agent: * 
Disallow:

2 回答 2