r - 聚类变量

Question

有哪些经过验证的方法可以在 R 中轻松实现的大型高维二进制数据集（想想 200,000 多行和 150 多个字段）中查找高度相关变量的分组？我想找到适合解释的变量分组，所以我认为 PCA 不是最好的方法。

score 1 · Accepted Answer

    library(Hmisc)
mtc <- mtcars[,2:8]
    mtcn <- data.matrix(mtc)
    clust <- varclus(mtcn)
    clust
    plot(clust)

?varclus :对变量进行层次聚类分析，使用 Hoeffding D 统计量、平方 Pearson 或 Spearman 相关性或两个变量均为正的观察比例作为相似性度量。变量聚类用于评估共线性、冗余，并将变量分成可以作为单个变量评分的聚类，从而减少数据。

对于二进制变量：

library(cluster)
data(animals)
ma <- mona(animals)
ma

plot(ma)

?mona :返回一个列表，该列表表示仅具有二进制变量的数据集的分裂层次聚类。

1 回答 1