0

我一直在使用 Nutch + Solr (4.3.0) 来索引站点,其中 schema.xml 由 Nutch 提供。

我的问题是,当我进行包含标题或菜单上出现的某些单词的搜索时,Solr 显然会响应所有页面。

我想要的是从索引中删除这些 HTML 块,以便搜索不包括可以说的那些“误报”。

我正在尝试类似的东西:

<charFilter class="solr.PatternReplaceCharFilterFactory" 
      pattern="HEADER STARTS(.*?)HEADER ENDS" replacement="" />

应用于我的内容字段类型的索引分析器,即“HEADER STARTS/ENDS”HTML 注释,但它似乎根本没有效果。

我找不到更好的谷歌搜索......但我是这个技术堆栈的真正新手。

欢迎任何帮助!

谢谢!!!

4

2 回答 2

2

你可能会看看boilerpipe。它是一个专门针对该问题的 java 库。我在一个项目中使用过,效果很好,但是我用的是普通的 Lucene。对于 Solr 集成,有一个未解决的问题

于 2013-06-05T08:23:36.953 回答
1

NUTCH -585已提交并应与后备箱一起使用,最新的 Nutch 版本应该足以满足您的需求。

于 2013-06-04T04:12:06.093 回答