3

看来我的 Google-fu 让我失望了。

有谁知道免费提供的仅包含单词库的单词库字典?所以,对于像草莓这样的东西,它会有草莓。但不包含缩写或拼写错误或替代拼写(如英国与美国)?任何可以在 Java 中快速使用的东西都会很好,但只是一个映射的文本文件或任何可以读入的东西都会有帮助。

4

3 回答 3

5

这称为词形还原,您所说的“词的基础”称为引理。morpha以及它在斯坦福 POS 标记器中的重新实现可以做到这一点。然而,两者都需要 POS 标记输入来解决自然语言中固有的歧义。

(POS标记意味着确定单词类别,例如名词,动词。我一直假设您想要一个处理英语的工具。)

编辑:因为您将使用它进行搜索,所以这里有一些提示:

  • 简单的英语词干提取在搜索引擎领域的声誉参差不齐。有时它有效,但通常无效。
  • 自动拼写更正可能会更好。这就是谷歌所做的。但是,如果您想正确执行,则计算时间会很昂贵。
  • 词形还原可能会带来好处,但可能只有当您索引并搜索单词和词条时(同样的建议也适用于词干。)
  • 这是一个用于进行词形还原的 Lucene 插件

(前面的评论基于我自己的研究;我的硕士论文是关于搜索引擎中非常嘈杂的数据的词形还原。)

于 2010-10-26T15:31:20.193 回答
1

这并不完全是您所要求的,但是关于词干提取的维基百科很有启发性,并且包含许多指向免费词干提取程序的链接。大概应该包括词干列表

于 2010-10-26T15:33:17.280 回答
1

http://www.puzzlers.org/dokuwiki/doku.php?id=solving:wordlists:about:start

此页面上的 Miriam Websters Collegiate 9th Edition 链接包含一个仅包含词根形式的词文件。草莓在里面,草莓不在。同样“添加”在那里“添加”不是。不确定这是否是您所追求的,但这对我有帮助。

于 2011-01-13T16:20:50.473 回答