java - 如何从我的 Solr 索引中忽略某些 HTML 部分（例如页眉、菜单、页脚）？

Question

我一直在使用 Nutch + Solr (4.3.0) 来索引站点，其中 schema.xml 由 Nutch 提供。

我的问题是，当我进行包含标题或菜单上出现的某些单词的搜索时，Solr 显然会响应所有页面。

我想要的是从索引中删除这些 HTML 块，以便搜索不包括可以说的那些“误报”。

我正在尝试类似的东西：

<charFilter class="solr.PatternReplaceCharFilterFactory" 
      pattern="HEADER STARTS(.*?)HEADER ENDS" replacement="" />

应用于我的内容字段类型的索引分析器，即“HEADER STARTS/ENDS”HTML 注释，但它似乎根本没有效果。

我找不到更好的谷歌搜索......但我是这个技术堆栈的真正新手。

欢迎任何帮助！

谢谢！！！

score 2 · Accepted Answer

你可能会看看boilerpipe。它是一个专门针对该问题的 java 库。我在一个项目中使用过，效果很好，但是我用的是普通的 Lucene。对于 Solr 集成，有一个未解决的问题

score 1 · Accepted Answer

NUTCH -585已提交并应与后备箱一起使用，最新的 Nutch 版本应该足以满足您的需求。

2 回答 2