1

我已经使用 Nutch 抓取了网站,并将抓取的数据推送到 solr。现在我想在具有特定属性值的特定标签之间搜索内容。例如,

 <h><title> title to search </title></h>
 <div id="abc">
     content to search
 </div>
 <div class="efg">
     other content to search
 </div>

我已经看到了这个问题(如何使用 nutch 解析 html 并将特定标签索引到 solr?),但这还不够清晰。

我想知道是否有可用的插件,或者我需要完全编写自定义插件。如果我必须编写一个插件,我只需要几个处理 html 标签和属性的指导。

4

2 回答 2

1

您可以实现一个 Nutch 过滤器(我喜欢Jericho HTML Parser)来仅提取您需要使用 DOM 操作编制索引的页面部分。您可以使用TextExtractor类来获取要在索引中使用的干净文本(无 HTML 标记)。我通常将这些数据保存在自定义字段中。

于 2013-06-28T23:03:05.153 回答
1

您可以HTMLStripCharFilterFactory在标记之前在分析器中使用。

这个过滤器strips HTML from the input stream。欲了解更多信息,请查看此处

于 2013-06-27T11:19:45.367 回答