apache - Apache Nutch 2.3.1 获取特定的 MIME 类型文档

Question

我已经用 hadoop/hbase 生态系统配置了 Apache Nutch 2.3.1。我必须抓取特定文档，即仅具有文本内容的文档。我找到了 regex-urlfilter.txt 来排除 MIME，但找不到任何选项来指定我要抓取的 MIME。regex-url 过滤器的问题在于，可能有许多 MIME 类型会随着时间的推移而增加。所以很难包含所有内容？例如，有什么方法可以指示 Nutch 获取文本/html 文档。

score 1 · Accepted Answer

URL 过滤器仅适用于 URL，这意味着您只能基于该 URL 进行断言。由于 URL 过滤器是在获取/解析文档之前执行的，因此没有可用于允许/阻止 URL 的 mimetype。

还有另一个问题，如果您指定要抓取特定的 mime 类型，但在当前的抓取周期中没有更多具有该 mime 类型的文档，会发生什么情况？然后抓取将停止，直到您（手动）添加更多要抓取的 URL，或者由于要获取另一个 URL。

正常的方法是抓取/解析所有内容并提取所有链接（您永远不知道何时会出现符合您要求的新链接）。然后只索引某些 mime 类型。

对于 Nutch 2.x，恐怕目前还没有这样做的机制。在 Nutch 1.x 上，我们有两个：

您可以将这些选项中的任何一个移植到 Nutch 2.x 中。

apache - Apache Nutch 2.3.1 获取特定的 MIME 类型文档

1 回答 1

Related

Reference