我已经使用 Nutch 抓取了网站,并将抓取的数据推送到 solr。现在我想在具有特定属性值的特定标签之间搜索内容。例如,
<h><title> title to search </title></h>
<div id="abc">
content to search
</div>
<div class="efg">
other content to search
</div>
我已经看到了这个问题(如何使用 nutch 解析 html 并将特定标签索引到 solr?),但这还不够清晰。
我想知道是否有可用的插件,或者我需要完全编写自定义插件。如果我必须编写一个插件,我只需要几个处理 html 标签和属性的指导。