r - cutree 和 cluster 分支之间的分歧

Question

我有一个数据集，其中包含一些属于 4 种不同基因型的小鼠的每日饮水量。我正在尝试编写一个脚本，以便使用层次聚类分析根据它们的摄水模式对这些动物进行分类，然后创建一个纵向图，绘制每个聚类在几天内的平均摄水量。

为此，我首先创建分层集群集群，如下所示：

library("dendextend")
library("ggplot2")
library("reshape2")
data=read.csv("data.csv", header=T, row.names=1)
trimmed=data[, -ncol(data)]

 hc <- as.dendrogram(hclust(dist(trimmed)))
    labels.drk=data[,ncol(data)]
    groups.drk=labels.drk[order.dendrogram(hc)]
    genotypes=as.character(unique(data[,ncol(data)]))
    k=4
    cluster_cols=rainbow(k)

    hc <- hc %>%
      color_branches(k = k, col=cluster_cols) %>%

      set("branches_lwd", 1) %>%

      set("leaves_pch", rep(c(21, 19), length(genotypes))[groups.drk]) %>% 
      set("leaves_col", palette()[groups.drk]) 

    plot(hc, main="Total animals" ,horiz=T)

    legend("topleft", legend=genotypes,
           col=palette(), pch = rep(c(21,19), length(genotypes)),
           title="Genotypes")

    legend("bottomleft", legend=1:k,
           col=cluster_cols, lty = 1, lwd = 2,
           title="Drinking group")

然后我使用 cutree 函数来评估哪个动物属于哪个组，以绘制每组的平均饮水量。

groups<-cutree(hc, k=k, order_clusters_as_data = FALSE))
x<-cbind(data,groups)
intake_avg=aggregate(data[, -ncol(data)], list(x$groups), mean, header=T)

df <- melt(intake_avg, id.vars = "Group.1")
ggplot(df, aes(variable, value, group=factor(Group.1))) + geom_line(aes(color=factor(Group.1)))

问题是我从分层集群获得的数字与 cutree 函数分配的数字之间存在不一致。虽然集群正在从 1 到 4 对分支进行自下而上的排序，但 cutree 函数正在使用我不熟悉的其他一些排序参数。因此，聚类图中的标签和摄入图表中的标签不匹配。

我是编码的初学者，所以可以肯定我使用了太多的冗余行和循环，所以我的代码可以缩短，但如果你们能帮助我解决这个具体问题，我会很高兴。

数据集

簇：

进气图

score 2 · Accepted Answer

要在树状图中绘制相同的集群，您需要使用：

groups <- dendextend:::cutree(hc, k=k, order_clusters_as_data = FALSE)
idx <- match(rownames(data), names(groups))
x <- cbind(data,groups[idx])
intake_avg <- aggregate(data[, -ncol(data)], list(x$groups), mean, header=T)

df <- melt(intake_avg, id.vars = "Group.1")
ggplot(df, aes(variable, value, group=factor(Group.1))) + 
 geom_line(aes(color=factor(Group.1)), lwd=1)

这是摄入量图：

r - cutree 和 cluster 分支之间的分歧

1 回答 1

Related

Reference