我正在使用每个文档之间的余弦相似度对文档进行一些聚类。这可以。但是我的问题有点奇怪,因为我只想将某些文档与其他文档进行聚类,而不是将所有文档相互关联。这是一个例子......
我有两个带有 3 个标签的电子表格。我想在文档之间聚集彼此相似但不在文档内部的标签,例如
Doc1:有标签:性别和性别、烟草使用年限、当前年龄
Doc2:有标签:性别、现在年龄、使用时间
我想在两个文档之间而不是文档内部对标签进行聚类,所以我创建了一个相似度矩阵,如下所示:
d1_l1 d1_l2 d1_l3 d2_l1 d2_l2 d2_l3
d1_l1 1.0000000 NA NA 0.5773503 0.0 0.0000000
d1_l2 NA 1.0000000 NA 0.0000000 0.0 0.3333333
d1_l3 NA NA 1.0 0.0000000 0.5 0.0000000
d2_l1 0.5773503 0.0000000 0.0 1.0000000 NA NA
d2_l2 0.0000000 0.0000000 0.5 NA 1.0 NA
d2_l3 0.0000000 0.3333333 0.0 NA NA 1.0000000
其中同一文档中标签之间的余弦相似度设置为NA。问题是 agnes 和其他层次聚类方法不接受 NA 值。所以我该怎么做?我在想这个错误的方式吗?