web - 防止搜索引擎抓取特定网页

Question

我有一个网页，用户可以在该网页上填写一些数据，为此他们需要登录。因此，当我sitemap.xml使用 xml-sitemaps.com 创建时，它创建了几个首先要求登录的位置。就像是：

<loc> https://www.example.com/login/?next=fill-form/ </loc>

这个页面也没有内容，所以我认为阻止搜索引擎抓取它是个好主意。

我想知道防止搜索引擎爬行的正确方法是什么，

head在部分中添加以下标签，

<meta name="robots" content="noindex, nofollow">

或通过在文件中添加其 URL 来禁止该网页robots.txt？

另外，这两者有什么区别？

score 0 · Accepted Answer

robots.txt禁止爬行。
noindex不允许索引。
你不能同时禁止两者。

如果您Disallow使用 robots.txt 中的 URL，符合要求的机器人将不会访问此 URL。如果他们以某种方式找到链接，搜索引擎可能会决定将 URL 编入索引（无需访问它）。

如果您noindex使用 URL，符合标准的搜索引擎不会索引该 URL，但机器人仍可能访问它（否则他们将无法了解noindex首先应用的内容）。

score 0 · Accepted Answer

您可以同时尝试这两种方法，尽管上述方法之间的唯一区别是<META>标签 contains "NOFOLLOW"，它告诉机器人不要跟随所述页面中给出的链接。

您必须注意，机器人可能会选择不尊重这两种方法，因为这两种方法都不是完全开发的标准。

如需更多信息，您可以访问：robotstxt.org，除了 robots.txt 检查器之外，它还包含对如何使用这两种方法的深入描述。

2 回答 2