lucene - LUCENE 标准分析器连字符注意事项

Question

在使用 lucene 标准分析器索引我的文档时，我遇到了一个问题。

例如：我的文档有一个词“plag-iarism”......这里这个分析器将它索引为“plag”和“iarism”。但我想像“抄袭”。我必须做什么才能得到一个完整的词？

score 0 · Accepted Answer

StandardAnalyzer 将tokanization 委托给 StandardTokenizer。您可以创建自己的 tokanizer 来满足您的确切需求（您可以基于 StandardTokenizer）。

或者，如果您愿意，您可以使用相关的正则表达式对 String.replace() 进行肮脏的修改，只运行分析器。是的。丑陋的。

1 回答 1