我对数千个文档进行分类,其中根据 tf-idf 计算向量分量。我使用余弦相似度。我对集群中的单词进行了频率分析,以检查热门单词的差异。但我不确定如何在此类文档中以数字方式计算相似度。
我将集群的内部相似度计算为每个文档与集群质心的相似度的平均值。如果我计算平均一对夫妇是基于少数。
外部相似度计算为所有对簇质心的平均相似度
我数对了吗?它基于我的内部相似度平均值从 0.2(5 个集群和 2000 个文档)到 0.35(20 个集群和 2000 个文档)。这可能是由计算机科学中面向广泛的文档引起的。从 0.3-0.7 的内部。结果可能是这样的?在互联网上我找到了各种测量方法,不知道使用哪一种而不是我的想法。我很绝望。
非常感谢您的建议!