0

我想从语料库中提取相似的词。相似度基于字符串。即,当两个词的串高度相似时,将两个词提取为相似词。例如,如果语料库包含:Aras、bahro、arasis、adkpo、bah、aras sd、kio。

相似词:

1-阿拉斯,阿拉西斯,阿拉斯SD

2- 呸,呸

如何解决这个问题呢?谢谢。

4

1 回答 1

0

Levenshtein 距离是衡量两个单词序列之间差异的度量,也许您可​​以获取一个单词序列并计算距离以了解它们是否相似。

于 2014-08-28T08:24:09.260 回答