我正在做一个项目,我需要获取给定单词的词根(词干)。如您所知,不使用字典的词干算法并不准确。我也尝试了 WordNet,但它对我的项目不利。我找到了 phpmorphy 项目,但它不包含 Java 中的 API。
此时我正在寻找具有不同形式的英文单词的数据库或文本文件。例如:
运行 运行 运行 ... 包括 包括 包括 ... ...
感谢您的帮助或建议。
我正在做一个项目,我需要获取给定单词的词根(词干)。如您所知,不使用字典的词干算法并不准确。我也尝试了 WordNet,但它对我的项目不利。我找到了 phpmorphy 项目,但它不包含 Java 中的 API。
此时我正在寻找具有不同形式的英文单词的数据库或文本文件。例如:
运行 运行 运行 ... 包括 包括 包括 ... ...
感谢您的帮助或建议。
您可以下载LanguageTool(免责声明:我是维护者),它带有一个二进制文件english.dict
。LanguageTool Wiki描述了如何将该文件转储为文本文件:
java -jar morfologik-tools-1.6.0-standalone.jar fsa_dump -x -d english.dict
对于run
,该文件将包含以下内容:
ran run VBD
run run NN
run run VB
run run VBN
run run VBP
running run VBG
runs run NNS
runs run VBZ