我已经安装了 nutch 和 solr 来抓取网站并在其中搜索;如您所知,我们可以使用 nutch 的解析元标签插件将网页的元标签索引到 solr 中。(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道有没有办法抓取另一个 html 标签到solr 不是元?(插件或无论如何)像这样:
<div id=something>
me specific tag
</div>
实际上,我想在此页面中向 solr(某物)添加一个值为“我特定标签”的字段。
任何想法?