我一直在使用 Nutch + Solr (4.3.0) 来索引站点,其中 schema.xml 由 Nutch 提供。
我的问题是,当我进行包含标题或菜单上出现的某些单词的搜索时,Solr 显然会响应所有页面。
我想要的是从索引中删除这些 HTML 块,以便搜索不包括可以说的那些“误报”。
我正在尝试类似的东西:
<charFilter class="solr.PatternReplaceCharFilterFactory"
pattern="HEADER STARTS(.*?)HEADER ENDS" replacement="" />
应用于我的内容字段类型的索引分析器,即“HEADER STARTS/ENDS”HTML 注释,但它似乎根本没有效果。
我找不到更好的谷歌搜索......但我是这个技术堆栈的真正新手。
欢迎任何帮助!
谢谢!!!