0

在 solrindex 期间,如何告诉 Nutch 跳过索引具有空内容字段的文档?

我找到了http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/,但是 index-omit 插件只允许 Nutch 过滤那些没有某些元标记字段的文档,而不是一般字段,例如内容.

4

1 回答 1

2

如果内容为空,您可能需要实现一个新的 Nutch 过滤器来丢弃文档。

您可以通过以下链接获取有关如何编写插件的更多信息:https ://wiki.apache.org/nutch/AboutPlugins

编辑:
我写了一个简单的插件作为一个例子。它查看“内容”字段,如果它为空,它将忽略文档并且不对其进行索引。

你可以从这里得到它:https ://github.com/nimeshjm/index-discardemptycontent

于 2013-10-16T22:06:25.053 回答