0

有哪些经过验证的方法可以在 R 中轻松实现的大型高维二进制数据集(想想 200,000 多行和 150 多个字段)中查找高度相关变量的分组?我想找到适合解释的变量分组,所以我认为 PCA 不是最好的方法。

4

1 回答 1

1
    library(Hmisc)
mtc <- mtcars[,2:8]
    mtcn <- data.matrix(mtc)
    clust <- varclus(mtcn)
    clust
    plot(clust)

?varclus :对变量进行层次聚类分析,使用 Hoeffding D 统计量、平方 Pearson 或 Spearman 相关性或两个变量均为正的观察比例作为相似性度量。变量聚类用于评估共线性、冗余,并将变量分成可以作为单个变量评分的聚类,从而减少数据。

对于二进制变量:

library(cluster)
data(animals)
ma <- mona(animals)
ma

plot(ma)  

?mona :返回一个列表,该列表表示仅具有二进制变量的数据集的分裂层次聚类。

于 2014-01-29T12:59:48.227 回答