我必须处理大型二进制数据集。这就是我必须建立自己的层次聚类的原因之一。当我深入研究算法时,我很惊讶,而不是;)发现可能有多个(不仅仅是两个)具有相同距离(汉明,重叠,...)的向量,因此您可以将它们以不同的方式配对一种“正确”的方式。
Fe 使用重叠作为相似性度量...以下 3 个向量有 2 个重叠,并且有 2 个不同的正确配对。
sequence : 110,101,111
这意味着有多种方法可以对它们进行聚类:
((110,111),101) vs (110,(111,101))
sequence : 110,101,111,011
(110,((111,011),101)) vs ((110,(111,011)),101)
让我用整数来说明它:
2,6,8,4
(2,((4,6),8)) vs ((2,(4,6)),8) vs ....
这意味着没有规范的聚类/树状图方法。
你怎么处理?是否存在可以具有规范/单一表示的不同类型的聚类?