0

我正在使用每个文档之间的余弦相似度对文档进行一些聚类。这可以。但是我的问题有点奇怪,因为我只想将某些文档与其他文档进行聚类,而不是将所有文档相互关联。这是一个例子......

我有两个带有 3 个标签的电子表格。我想在文档之间聚集彼此相似但不在文档内部的标签,例如

  • Doc1:有标签:性别和性别、烟草使用年限、当前年龄

  • Doc2:有标签:性别、现在年龄、使用时间

我想在两个文档之间而不是文档内部对标签进行聚类,所以我创建了一个相似度矩阵,如下所示:

          d1_l1         d1_l2     d1_l3     d2_l1      d2_l2     d2_l3
    d1_l1 1.0000000        NA        NA     0.5773503   0.0    0.0000000
    d1_l2        NA 1.0000000        NA     0.0000000   0.0    0.3333333
    d1_l3        NA        NA        1.0    0.0000000   0.5    0.0000000
    d2_l1 0.5773503 0.0000000        0.0    1.0000000    NA           NA
    d2_l2 0.0000000 0.0000000        0.5           NA   1.0           NA
    d2_l3 0.0000000 0.3333333        0.0           NA    NA    1.0000000

其中同一文档中标签之间的余弦相似度设置为NA。问题是 agnes 和其他层次聚类方法不接受 NA 值。所以我该怎么做?我在想这个错误的方式吗?

4

0 回答 0