distance - 层次聚类规范表示？

问问题 2021-05-11T04:12:22.353

17 次

我必须处理大型二进制数据集。这就是我必须建立自己的层次聚类的原因之一。当我深入研究算法时，我很惊讶，而不是；）发现可能有多个（不仅仅是两个）具有相同距离（汉明，重叠，...）的向量，因此您可以将它们以不同的方式配对一种“正确”的方式。

Fe 使用重叠作为相似性度量...以下 3 个向量有 2 个重叠，并且有 2 个不同的正确配对。

 sequence : 110,101,111

这意味着有多种方法可以对它们进行聚类：

 ((110,111),101)  vs (110,(111,101))

 sequence : 110,101,111,011

 (110,((111,011),101))  vs ((110,(111,011)),101)

让我用整数来说明它：

 2,6,8,4
 (2,((4,6),8))  vs ((2,(4,6)),8) vs ....

这意味着没有规范的聚类/树状图方法。

你怎么处理？是否存在可以具有规范/单一表示的不同类型的聚类？

0 回答 0