6

我正在做一个项目,我需要获取给定单词的词根(词干)。如您所知,不使用字典的词干算法并不准确。我也尝试了 WordNet,但它对我的项目不利。我找到了 phpmorphy 项目,但它不包含 Java 中的 API。

此时我正在寻找具有不同形式的英文单词的数据库或文本文件。例如:

运行 运行 运行 ... 包括 包括 包括 ... ...

感谢您的帮助或建议。

4

1 回答 1

9

您可以下载LanguageTool(免责声明:我是维护者),它带有一个二进制文件english.dictLanguageTool Wiki描述了如何将该文件转储为文本文件:

java -jar morfologik-tools-1.6.0-standalone.jar fsa_dump -x -d english.dict

对于run,该文件将包含以下内容:

ran run VBD
run run NN
run run VB
run run VBN
run run VBP
running run VBG
runs run NNS
runs run VBZ

第一列是变形形式,第二列是基本形式,第三列是根据(稍微扩展的) Penn Treebank标记集的词性标记。

于 2013-08-22T17:06:03.183 回答