5

我有一个开发站点https://text-domain.com。(不是真正的网站)当我去https://duckduckgo.com并搜索 text-domain.com 时,它确实会返回结果。

到目前为止我尝试了什么:

使用以下代码创建robots.txt文件(放入我的根目录,即 text-domain.com/robots.txt 中):

User-agent: *
Disallow: /

然后在我的模板文件中添加这样的元标记:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

即使在这样做之后,我在 DuckDuckGo 上进行了搜索,也得到了相同的结果。欢迎大家提出意见。

附言

你好,等了几天有2个发现:

  • 尽管如此,仍会获取搜索结果。
  • 但我看到该结果的消息说:“我们想在此处向您显示描述,但该站点不允许我们。”

    是否可以完全阻止显示在结果中?

4

2 回答 2

14

DuckDuckGo 在包含在他们的结果中时是一只奇怪的鸭子。我已经在多个搜索引擎中对这个主题进行了相当多的研究,并与 DDG 来回发送了一些电子邮件。

这是交易。他们从其他搜索引擎获取内容,如此处所列。据我所知,他们的搜索结果并未表明其来源是哪个搜索引擎,因此要删除您的内容,您基本上需要向上游访问他们的所有来源并从那里删除您的内容。如果这听起来很麻烦,请不要担心——无论如何你都想这样做,对吧?

DDG 也有自己的爬虫,恰当地称为DuckDuckBot。它不支持HTMLnoindex标记,也不支持 HTTP 标头(它robots.txt支持 ),但这似乎并不重要,因为DuckDuckBot 不会创建新结果。据我所知,这在任何地方都没有记录,但我与他们的工作人员交谈过,我在下面引用:

DDG 说 (2014-06-06):

我们从多个来源获得结果,我们自己的爬虫不会导致您的 [问题]。我们的爬虫只执行非常具体的任务,例如查看(而不是实际爬取)停放的域、垃圾邮件站点等。

如果 [您的网站] 的结果出现在 DuckDuckGo 上并且不应该出现,则它们很可能来自我们的上游来源之一。如果在那里删除,那么它们将停止显示在我们的结果中。

我回应:

好的,所以没有任何东西通过您的爬虫放入您的索引中,它们确实不支持noindexHTML 或 HTTP 标记?

他们确认:

是的!很抱歉造成混乱,如果您发现任何异常情况,请随时告诉我们。

那么剩下的唯一问题是如何从上游提供商中删除您的内容。为此,我将您指向我的博客,因为它因提供商而异。它的症结在于:

  1. 使用noindexHTML 元标记和x-robotsHTTP 标记(用于图像等)告诉搜索引擎不要在其结果中包含某些内容;
  2. 在您的sitemap.xml文件中列出您的整个网站,以便所有搜索引擎都可以在那里找到它。
  3. 用于robots.txt阻止不支持noindexx-robots标记的搜索引擎。

对于奖励积分:

  1. 设置您的sitemaps.xml文件,以便它们已noindex设置(因此不会显示在搜索结果中)。
  2. 对您的robots.txt文件也这样做。

这是一个复杂的世界。

于 2014-06-06T19:34:26.180 回答
3

DuckDuckGo 应该尊重你的robots.txt. 他们的机器人DuckDuckBot记录在https://duckduckgo.com/duckduckbot

但请注意:DuckDuckGo 机器人本身不会抓取所有内容(因为 DuckDuckGo 从其他来源获取结果),因此如果您不阻止这些其他来源(如 Bing)的机器人,您的页面可能仍会显示。有关详细信息,请参阅mlissner 的答案

有了robots.txt,有两件事需要考虑:

  • robots.txt识别您的变化需要时间。您必须等到相关的机器人再次访问您的网站。
  • 即使您的 URL 在 中被阻止robots.txt,搜索引擎仍可能在其搜索结果中列出您的 URL(没有抓取到的元数据,如标题和描述)。

使用robots-meta元素noindex甚至会阻止在 Google 等搜索引擎中列出 URL,但 DDG似乎不支持它。

请注意,您在示例中使用了错误的引号。它应该是

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

代替

<META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”&gt;
于 2013-08-07T16:23:43.173 回答