Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我安装了 solr 和 nutch,我的网页结构是每个页面的标题都是相同的;例如银行的东西;但在每个页面中都有一个 ID 为 TITLE 的标签,例如:
<div ID="TITLE"><h1>my page specific title</h1></div>
我想向 solr 添加另一个字段,例如第二个标题,它可以获取我的页面特定标题并在其中搜索字词。(实际上,现在我的页面特定标题在内容字段中,我想在其他字段中使用它)
我怎样才能做到这一点?!
检查Nutch 插件,它应该允许您从网页中提取元素。