看来我的 Google-fu 让我失望了。
有谁知道免费提供的仅包含单词库的单词库字典?所以,对于像草莓这样的东西,它会有草莓。但不包含缩写或拼写错误或替代拼写(如英国与美国)?任何可以在 Java 中快速使用的东西都会很好,但只是一个映射的文本文件或任何可以读入的东西都会有帮助。
看来我的 Google-fu 让我失望了。
有谁知道免费提供的仅包含单词库的单词库字典?所以,对于像草莓这样的东西,它会有草莓。但不包含缩写或拼写错误或替代拼写(如英国与美国)?任何可以在 Java 中快速使用的东西都会很好,但只是一个映射的文本文件或任何可以读入的东西都会有帮助。
这称为词形还原,您所说的“词的基础”称为引理。morpha
以及它在斯坦福 POS 标记器中的重新实现可以做到这一点。然而,两者都需要 POS 标记输入来解决自然语言中固有的歧义。
(POS标记意味着确定单词类别,例如名词,动词。我一直假设您想要一个处理英语的工具。)
编辑:因为您将使用它进行搜索,所以这里有一些提示:
(前面的评论基于我自己的研究;我的硕士论文是关于搜索引擎中非常嘈杂的数据的词形还原。)
这并不完全是您所要求的,但是关于词干提取的维基百科很有启发性,并且包含许多指向免费词干提取程序的链接。大概应该包括词干列表
http://www.puzzlers.org/dokuwiki/doku.php?id=solving:wordlists:about:start
此页面上的 Miriam Websters Collegiate 9th Edition 链接包含一个仅包含词根形式的词文件。草莓在里面,草莓不在。同样“添加”在那里“添加”不是。不确定这是否是您所追求的,但这对我有帮助。