0

我有一个网页,用户可以在该网页上填写一些数据,为此他们需要登录。因此,当我sitemap.xml使用 xml-sitemaps.com 创建时,它创建了几个首先要求登录的位置。就像是:

<loc> https://www.example.com/login/?next=fill-form/ </loc>

这个页面也没有内容,所以我认为阻止搜索引擎抓取它是个好主意。

我想知道防止搜索引擎爬行的正确方法是什么,

head在部分中添加以下标签,

<meta name="robots" content="noindex, nofollow">

或通过在文件中添加其 URL 来禁止该网页robots.txt

另外,这两者有什么区别?

4

2 回答 2

0

robots.txt禁止爬行。
noindex不允许索引。
你不能同时禁止两者。

如果您Disallow使用 robots.txt 中的 URL,符合要求的机器人将不会访问此 URL。如果他们以某种方式找到链接,搜索引擎可能会决定将 URL 编入索引(无需访问它)。

如果您noindex使用 URL,符合标准的搜索引擎不会索引该 URL,但机器人仍可能访问它(否则他们将无法了解noindex首先应用的内容)。

于 2018-04-16T17:26:04.563 回答
0

您可以同时尝试这两种方法,尽管上述方法之间的唯一区别是<META>标签 contains "NOFOLLOW",它告诉机器人不要跟随所述页面中给出的链接。

您必须注意,机器人可能会选择不尊重这两种方法,因为这两种方法都不是完全开发的标准。

如需更多信息,您可以访问:robotstxt.org,除了 robots.txt 检查器之外,它还包含对如何使用这两种方法的深入描述。

于 2018-04-15T16:52:15.600 回答