0

我正在寻找一种尝试检查的算法

1)文档中句子的相似度(约5000)

2) 多个文档(约 5000 个)彼此之间的相似度

我需要相同的,因为我正在尝试评估属于特定类别的文本文档/句子是否以任何方式彼此相似。是否有任何现有的方法可以做到这一点。

4

1 回答 1

1

标准方法是使用余弦相似度和 TF-IDF 归一化。

这有很多变体,您需要尝试最适合您的方法。

于 2017-05-17T20:42:38.633 回答