web-crawler - 从搜索引擎中阻止网站 - DuckDuckGo

Question

我有一个开发站点https://text-domain.com。（不是真正的网站）当我去https://duckduckgo.com并搜索 text-domain.com 时，它确实会返回结果。

到目前为止我尝试了什么：

使用以下代码创建robots.txt文件（放入我的根目录，即 text-domain.com/robots.txt 中）：

User-agent: *
Disallow: /

然后在我的模板文件中添加这样的元标记：

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

即使在这样做之后，我在 DuckDuckGo 上进行了搜索，也得到了相同的结果。欢迎大家提出意见。

附言

你好，等了几天有2个发现：

尽管如此，仍会获取搜索结果。
但我看到该结果的消息说：“我们想在此处向您显示描述，但该站点不允许我们。”

是否可以完全阻止显示在结果中？

score 14 · Accepted Answer

DuckDuckGo 在包含在他们的结果中时是一只奇怪的鸭子。我已经在多个搜索引擎中对这个主题进行了相当多的研究，并与 DDG 来回发送了一些电子邮件。

这是交易。他们从其他搜索引擎获取内容，如此处所列。据我所知，他们的搜索结果并未表明其来源是哪个搜索引擎，因此要删除您的内容，您基本上需要向上游访问他们的所有来源并从那里删除您的内容。如果这听起来很麻烦，请不要担心——无论如何你都想这样做，对吧？

DDG 也有自己的爬虫，恰当地称为DuckDuckBot。它不支持HTMLnoindex标记，也不支持 HTTP 标头（它robots.txt支持），但这似乎并不重要，因为DuckDuckBot 不会创建新结果。据我所知，这在任何地方都没有记录，但我与他们的工作人员交谈过，我在下面引用：

DDG 说 (2014-06-06):

我们从多个来源获得结果，我们自己的爬虫不会导致您的 [问题]。我们的爬虫只执行非常具体的任务，例如查看（而不是实际爬取）停放的域、垃圾邮件站点等。

如果 [您的网站] 的结果出现在 DuckDuckGo 上并且不应该出现，则它们很可能来自我们的上游来源之一。如果在那里删除，那么它们将停止显示在我们的结果中。

我回应：

好的，所以没有任何东西通过您的爬虫放入您的索引中，它们确实不支持noindexHTML 或 HTTP 标记？

他们确认：

是的！很抱歉造成混乱，如果您发现任何异常情况，请随时告诉我们。

那么剩下的唯一问题是如何从上游提供商中删除您的内容。为此，我将您指向我的博客，因为它因提供商而异。它的症结在于：

使用noindexHTML 元标记和x-robotsHTTP 标记（用于图像等）告诉搜索引擎不要在其结果中包含某些内容；
在您的sitemap.xml文件中列出您的整个网站，以便所有搜索引擎都可以在那里找到它。
用于robots.txt阻止不支持noindex或x-robots标记的搜索引擎。

对于奖励积分：

设置您的sitemaps.xml文件，以便它们已noindex设置（因此不会显示在搜索结果中）。
对您的robots.txt文件也这样做。

这是一个复杂的世界。

score 3 · Accepted Answer

DuckDuckGo 应该尊重你的robots.txt. 他们的机器人DuckDuckBot记录在https://duckduckgo.com/duckduckbot。

但请注意：DuckDuckGo 机器人本身不会抓取所有内容（因为 DuckDuckGo 从其他来源获取结果），因此如果您不阻止这些其他来源（如 Bing）的机器人，您的页面可能仍会显示。有关详细信息，请参阅mlissner 的答案。

有了robots.txt，有两件事需要考虑：

robots.txt识别您的变化需要时间。您必须等到相关的机器人再次访问您的网站。
即使您的 URL 在中被阻止robots.txt，搜索引擎仍可能在其搜索结果中列出您的 URL（没有抓取到的元数据，如标题和描述）。

使用robots-meta元素noindex甚至会阻止在 Google 等搜索引擎中列出 URL，但 DDG似乎不支持它。

请注意，您在示例中使用了错误的引号。它应该是

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

代替

<META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”&gt;

web-crawler - 从搜索引擎中阻止网站 - DuckDuckGo

2 回答 2

Related

Reference