Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
在使用 lucene 标准分析器索引我的文档时,我遇到了一个问题。
例如:我的文档有一个词“plag-iarism”......这里这个分析器将它索引为“plag”和“iarism”。但我想像“抄袭”。我必须做什么才能得到一个完整的词?
StandardAnalyzer 将tokanization 委托给 StandardTokenizer。您可以创建自己的 tokanizer 来满足您的确切需求(您可以基于 StandardTokenizer)。
或者,如果您愿意,您可以使用相关的正则表达式对 String.replace() 进行肮脏的修改,只运行分析器。是的。丑陋的。