DuckDuckGo 在包含在他们的结果中时是一只奇怪的鸭子。我已经在多个搜索引擎中对这个主题进行了相当多的研究,并与 DDG 来回发送了一些电子邮件。
这是交易。他们从其他搜索引擎获取内容,如此处所列。据我所知,他们的搜索结果并未表明其来源是哪个搜索引擎,因此要删除您的内容,您基本上需要向上游访问他们的所有来源并从那里删除您的内容。如果这听起来很麻烦,请不要担心——无论如何你都想这样做,对吧?
DDG 也有自己的爬虫,恰当地称为DuckDuckBot。它不支持HTMLnoindex
标记,也不支持 HTTP 标头(它robots.txt
支持 ),但这似乎并不重要,因为DuckDuckBot 不会创建新结果。据我所知,这在任何地方都没有记录,但我与他们的工作人员交谈过,我在下面引用:
DDG 说 (2014-06-06):
我们从多个来源获得结果,我们自己的爬虫不会导致您的 [问题]。我们的爬虫只执行非常具体的任务,例如查看(而不是实际爬取)停放的域、垃圾邮件站点等。
如果 [您的网站] 的结果出现在 DuckDuckGo 上并且不应该出现,则它们很可能来自我们的上游来源之一。如果在那里删除,那么它们将停止显示在我们的结果中。
我回应:
好的,所以没有任何东西通过您的爬虫放入您的索引中,它们确实不支持noindex
HTML 或 HTTP 标记?
他们确认:
是的!很抱歉造成混乱,如果您发现任何异常情况,请随时告诉我们。
那么剩下的唯一问题是如何从上游提供商中删除您的内容。为此,我将您指向我的博客,因为它因提供商而异。它的症结在于:
- 使用
noindex
HTML 元标记和x-robots
HTTP 标记(用于图像等)告诉搜索引擎不要在其结果中包含某些内容;
- 在您的sitemap.xml文件中列出您的整个网站,以便所有搜索引擎都可以在那里找到它。
- 用于
robots.txt
阻止不支持noindex
或x-robots
标记的搜索引擎。
对于奖励积分:
- 设置您的
sitemaps.xml
文件,以便它们已noindex
设置(因此不会显示在搜索结果中)。
- 对您的
robots.txt
文件也这样做。
这是一个复杂的世界。