1

当 solr 索引文档时,我想删除标记之间的额外句点。在索引到 solr 之前,我总是可以使用自定义代码执行此操作。但是是否有一个标记器或分析器或配置可以去除不必要的句点(点)?示例:这家维修店非常好......我会推荐给任何想要修理自行车的人......请尝试一下......

我已经使用了多个标记器和分析器。他们似乎都没有为此工作。我目前正在使用solr.WhitespaceTokenizerFactorysolr.WordDelimiterFilterFactory以及其他一些过滤器。由于我使用 WordDelimiterFilterFactory 的方式,solr 正在生成好,好...,自行车...,自行车,bikesplease,尝试,尝试.....

我不希望 solr 最后生成带有...的令牌。关于如何在不编写自定义代码的情况下做到这一点的任何想法?......

4

1 回答 1

1

你试过 solr.StandardTokenizerFactory 吗?

http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.StandardTokenizerFactory

我尝试了这个标记器,似乎可以按您的预期工作。

于 2013-07-02T09:30:18.867 回答