是否有任何开放的软件工具包可以比较单词之间的词汇级相似性并将相似的单词组合在一起?例如,Blue jean、Blue Jeans 和 blue jea(拼写错误)应该组合在一起吗?我不需要在这里寻找语义相似性。
问问题
684 次
2 回答
0
尝试自然语言工具包http://nltk.org/
这是布朗聚类算法的一个相当抽象的处理http://www.cs.columbia.edu/~cs4705/lectures/brown.pdf
单词之间的标准相似度度量是 Levenstein 距离 http://en.wikipedia.org/wiki/Damerau%E2%80%93Levenshtein_distance
于 2013-04-01T12:51:08.500 回答
0
我相信您对词干提取比对实际聚类更感兴趣,例如使用 Levensthein 距离:使用无监督的文本相似性太容易产生误报。
从词汇相似性的角度来看,
blue jean
blue dean
也只是一个字符不同。然而,这是一个不太可能的错字。
你真的想使用一些受监督的东西,比如搬运工词干分析器来匹配。
于 2013-04-01T16:30:45.077 回答