0

我必须处理大型二进制数据集。这就是我必须建立自己的层次聚类的原因之一。当我深入研究算法时,我很惊讶,而不是;)发现可能有多个(不仅仅是两个)具有相同距离(汉明,重叠,...)的向量,因此您可以将它们以不同的方式配对一种“正确”的方式。

Fe 使用重叠作为相似性度量...以下 3 个向量有 2 个重叠,并且有 2 个不同的正确配对。

 sequence : 110,101,111

这意味着有多种方法可以对它们进行聚类:

 ((110,111),101)  vs (110,(111,101))

 sequence : 110,101,111,011

 (110,((111,011),101))  vs ((110,(111,011)),101)

让我用整数来说明它:

 2,6,8,4
 (2,((4,6),8))  vs ((2,(4,6)),8) vs ....

这意味着没有规范的聚类/树状图方法。

你怎么处理?是否存在可以具有规范/单一表示的不同类型的聚类?

4

0 回答 0