Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在寻找一种尝试检查的算法
1)文档中句子的相似度(约5000)
2) 多个文档(约 5000 个)彼此之间的相似度
我需要相同的,因为我正在尝试评估属于特定类别的文本文档/句子是否以任何方式彼此相似。是否有任何现有的方法可以做到这一点。
标准方法是使用余弦相似度和 TF-IDF 归一化。
这有很多变体,您需要尝试最适合您的方法。