0

假设您有以下矩阵:

    V1  V2  V3  V4  V5
1   0   0   0   0   1
2   0   0   0   1   1
3   0   0   1   1   1
4   0   0   1   1   0
5   1   0   0   0   0
6   1   1   1   0   0
7   0   1   1   0   0
8   0   1   1   0   0
9   0   1   1   1   0
10  1   1   1   0   1

你做一个树状图说你想要的任何方式,但这是我所做的,其中 cmat 是上面的自定义矩阵:

distance <- dist(cmat, method="euclidean")
cluster <- hclust(distance, method="average")
plot(cluster, hang=-1)

自定义矩阵上的聚类树状图

基本上我想知道哪些功能会导致哪些中断。假设我们在 1.5 以上进行聚类,我们可以使用代码查看:

dnd = as.dendrogram(cluster)
plot(cut(dnd, h=1.5)$upper, main="Upper tree of cut at h=1.5")

这些产生: 在 h=1.5 时树状图的上树切割

但请注意它是如何具有任意名称“批次”的......我想知道:

5 的哪个特征导致第一次中断?然后下一个?有任何想法吗?如何编码?谢谢!!

4

1 回答 1

0

简短的回答:所有这些。欧几里得距离定义为sqrt(sum((x-y)**2)),因此所有特征都用于计算距离。这不是在单个特征上拆分的决策树。

如果你想要一些简单的解释,比如决策树,我建议你

  1. 通过在所需高度切割树来产生平面聚类

  2. 在生成的集群上训练决策树

  3. 分析决策树。

于 2013-10-18T09:25:08.307 回答