1

我用 apache nutch 抓取网站并将其索引到 Apache Solr。我不知道如何在 solr 的网站中搜索字符串和 html 标签?谢谢

4

1 回答 1

0

最简单的方法是从 HTML 中提取数据并索引提取的数据。您可以使用HTMLStripCharFilterFactory从输入流中去除 HTML。

<analyzer>
  <charFilter class="solr.HTMLStripCharFilterFactory"/>
  <tokenizer class="solr.StandardTokenizerFactory"/>
</analyzer>
于 2012-08-11T08:16:45.530 回答