我用 apache nutch 抓取网站并将其索引到 Apache Solr。我不知道如何在 solr 的网站中搜索字符串和 html 标签?谢谢
问问题
316 次
1 回答
0
最简单的方法是从 HTML 中提取数据并索引提取的数据。您可以使用HTMLStripCharFilterFactory从输入流中去除 HTML。
<analyzer>
<charFilter class="solr.HTMLStripCharFilterFactory"/>
<tokenizer class="solr.StandardTokenizerFactory"/>
</analyzer>
于 2012-08-11T08:16:45.530 回答