我正在使用 Apache Lucene 创建一个英文搜索引擎。由于我需要为此进行词形还原,因此我使用的是斯坦福 CoreNLP,并且我知道如何做到这一点。
是否可以使用MorfologikAnalyzer或开箱即用的 Apache Lucene 类似的东西来进行词形还原?
不幸的是,MorfologikAnalyzer只假设使用波兰语并提供词干提取功能,而不是词形还原。
没有内置的 Apache Lucene 分析器可以帮助您。因此,您的现有选项如下:
当然有几个付费的词形还原引擎,其中一些可能比上面的更丰富,特别是如果特定领域需要词形还原,例如出版等。
我不会在这里列出任何一个,但如果需要的话,应该不难找到它们。