0

我有一个用户在我进行一些清理后输入的单词列表(以纠正拼写错误)我有以下列表,每一行代表一个字符串以及输入该字符串的次数:

Pepsi        500
Coke         358
Dr. pepper   254
Sprite       204
Coca cola    159
7 up         140
Mountain dew 137
Diet coke    58
Mtn. dew     50

现在我想要一个脚本来遍历这个列表并将相似的单词分组。例如,将可口可乐、可口可乐和健怡可乐合并为一组(因为它们是可口可乐的同义词)。

我看到NLTK WordNet中有一些相似函数,我可以使用它们吗?还是有解决这个问题的“更好”方法?

4

0 回答 0