我正在寻找一种 Java 工具,它可以让我做以下事情:
1) 寻找倾斜词的基本形式。例子:
- 对于单词“connection”、“connecting”、“connects”等,它将返回单词“connect”。
- 对于单词“running”,“runs”,它将返回单词“run”。
2) 为每个单词返回其同义词的集合。
有人知道这样的工具吗?
我假设你只关心英语。
您遇到的第一个问题称为词干提取。这篇SO 帖子推荐了Porter stemmer的这个 Java 实现。
WordNet 有一个相当大的人工创建/策划的单词数据库及其关系,其中包括同义词。这是WordNet 的 Java API。