我已经用 hadoop/hbase 生态系统配置了 Apache Nutch 2.3.1。我必须抓取特定文档,即仅具有文本内容的文档。我找到了 regex-urlfilter.txt 来排除 MIME,但找不到任何选项来指定我要抓取的 MIME。regex-url 过滤器的问题在于,可能有许多 MIME 类型会随着时间的推移而增加。所以很难包含所有内容?例如,有什么方法可以指示 Nutch 获取文本/html 文档。
问问题
226 次
1 回答
1
URL 过滤器仅适用于 URL,这意味着您只能基于该 URL 进行断言。由于 URL 过滤器是在获取/解析文档之前执行的,因此没有可用于允许/阻止 URL 的 mimetype。
还有另一个问题,如果您指定要抓取特定的 mime 类型,但在当前的抓取周期中没有更多具有该 mime 类型的文档,会发生什么情况?然后抓取将停止,直到您(手动)添加更多要抓取的 URL,或者由于要获取另一个 URL。
正常的方法是抓取/解析所有内容并提取所有链接(您永远不知道何时会出现符合您要求的新链接)。然后只索引某些 mime 类型。
对于 Nutch 2.x,恐怕目前还没有这样做的机制。在 Nutch 1.x 上,我们有两个:
- https://github.com/apache/nutch/tree/master/src/plugin/index-jexl-filter
- https://github.com/apache/nutch/tree/master/src/plugin/mimetype-filter(即将弃用)
您可以将这些选项中的任何一个移植到 Nutch 2.x 中。
于 2018-03-15T09:30:23.447 回答