0

我安装了 solr 和 nutch,我的网页结构是每个页面的标题都是相同的;例如银行的东西;但在每个页面中都有一个 ID 为 TITLE 的标签,例如:

<div ID="TITLE"><h1>my page specific title</h1></div>

我想向 solr 添加另一个字段,例如第二个标题,它可以获取我的页面特定标题并在其中搜索字词。(实际上,现在我的页面特定标题在内容字段中,我想在其他字段中使用它)

我怎样才能做到这一点?!

4

1 回答 1

0

检查Nutch 插件,它应该允许您从网页中提取元素。

于 2012-08-26T11:46:11.280 回答