1

我正在尝试让 Googlebot 网络爬虫为我的网站编制索引。我robots.txt最初的样子是这样的:

User-agent: * 
Disallow: / 
Host: www.sitename.com 
Sitemap: https://www.sitename.com/sitemap.xml

我将其更改为:

User-agent: * 
Allow: / 
Host: www.sitename.com 
Sitemap: https://www.sitename.com/sitemap.xml 

只有谷歌仍然没有索引我的链接。

4

2 回答 2

0

我正在尝试让 Googlebot 网络爬虫为我的网站编制索引。

  1. 机器人规则与索引无关!他们只是关于爬行能力。一个页面可以被索引,即使被禁止爬取!

  2. host指令受 Yandex 支持。

  3. 如果您希望所有机器人都能抓取您的网站,您的 robots.txt 文件应放在https://www.sitename.com/robots.txt下,状态码为 200,并包含:

    User-agent: * Disallow: Sitemap: https://www.sitename.com/sitemap.xml

于 2018-10-08T11:57:58.747 回答
-1

文档

Robots.txt 语法可以被认为是 robots.txt 文件的“语言”。您可能会在 robots 文件中遇到五个常用术语。他们包括:

用户代理:您向其提供抓取指令的特定网络爬虫(通常是搜索引擎)。大多数用户代理的列表可以在这里找到。

Disallow:用于告诉用户代理不要抓取特定 URL 的命令。每个 URL 只允许有一个“Disallow:”行。

允许(仅适用于 Googlebot):告诉 Googlebot 它可以访问页面或子文件夹的命令,即使其父页面或子文件夹可能被禁止。

Crawl-delay:爬虫在加载和爬取页面内容之前应该等待多少秒。请注意,Googlebot 不承认此命令,但可以在 Google Search Console 中设置抓取速度。

站点地图:用于调用与此 URL 关联的任何 XML 站点地图的位置。请注意,此命令仅受 Google、Ask、Bing 和 Yahoo 支持。

尝试在您的 robots.txt 指令中特别提及 Googlebot,例如:

User-agent: Googlebot 
Allow: /

允许所有网络爬虫访问所有内容

User-agent: * 
Disallow: 
于 2018-10-08T07:14:07.373 回答