我必须使用 k-means 编写该集群的程序。我有 TF-IDF 和看起来像这样的余弦相似度
1.00 0.17 0.46 0.40 0.89
0.17 1.00 0.83 0.60 0.58
0.46 0.83 1.00 0.30 0.67
0.40 0.60 0.30 1.00 0.73
0.89 0.58 0.67 0.73 1.00
我有 2 均值的输出,它与第一个质心分成两组:D1 和 D2,因为它们的相似性最低(0.17)所以组是 {D1, D5} 和 {D2, D3, D4} 但如果我必须选择3-means?那么我该如何选择我的起始质心?
还有一件事我不明白,我正在使用我的 TF-IDFS,如下所示:
0.2 0.4 0.8 0.0 0.2
0.0 0.4 0.2 0.8 0.2
0.8 0.0 0.2 0.4 0.4
并为我的小组制作新的质心
组 1:T1- 0.2 T2- 0.1 T3- 0.6 组 2:T1- 0.4 T2- 0.4(6) T3-0.2
现在我该怎么做才能再次将我的文档分配给新的质心?我现在必须计算质心和文档之间的余弦吗?我把它放在那里的 cos 值是否高于组质心?