2

我有以 HBase 作为后端的 Nutch 2.3 设置,我运行了一个爬网,其中包括 Solr 和 Solr 重复数据删除的索引。

我最近注意到 Solr 索引包含不需要的网页。

为了让 Nutch 忽略这些网页,我设置了以下元标记:

<meta name="robots" content="noindex,follow"> 

我访问了 apache nutch 官方网站,它解释了以下内容:

如果您无权编辑服务器上的 /robots.txt 文件,您仍然可以告诉机器人不要索引您的页面或跟踪您的链接。标准机制是机器人 META 标签

在网上搜索答案,我找到了在 nutch-site.xml 中设置Protocol.CHECK_ROBOTS或设置protocol.plugin.check.robots为属性的建议。这些似乎都不起作用。

目前 Nutch 2.3 忽略了该noindex规则,因此将内容索引到外部数据存储,即 Solr。

问题是如何配置 Nutch 2.3 以尊重机器人元标记?

此外,如果 Nutch 2.3 之前配置为忽略机器人元标记,并且在之前的抓取周期中索引了该网页。如果 robots 元标记的规则是正确的,这是否会导致页面在以后的爬网中从 Solr 索引中删除?

4

1 回答 1

1

我创建了一个插件来克服 Apache Nutch 2.3 不尊重机器人元标记规则的问题noindex。metarobots 插件强制 Nutch 在索引期间丢弃符合条件的文档。这可以防止合格文档被索引到您的外部数据存储,即 Solr。

请注意:此插件会阻止包含 robots 元标记规则的文档的索引noindex,它不会删除以前索引到您的外部数据存储的任何文档。

访问此链接以获取说明

于 2016-02-10T12:08:38.140 回答