0

在使用 lucene 标准分析器索引我的文档时,我遇到了一个问题。

例如:我的文档有一个词“plag-iarism”......这里这个分析器将它索引为“plag”和“iarism”。但我想像“抄袭”。我必须做什么才能得到一个完整的词?

4

1 回答 1

0

StandardAnalyzer 将tokanization 委托给 StandardTokenizer。您可以创建自己的 tokanizer 来满足您的确切需求(您可以基于 StandardTokenizer)。

或者,如果您愿意,您可以使用相关的正则表达式对 String.replace() 进行肮脏的修改,只运行分析器。是的。丑陋的。

于 2012-10-13T00:10:00.087 回答