有哪些经过验证的方法可以在 R 中轻松实现的大型高维二进制数据集(想想 200,000 多行和 150 多个字段)中查找高度相关变量的分组?我想找到适合解释的变量分组,所以我认为 PCA 不是最好的方法。
问问题
2025 次
1 回答
1
library(Hmisc)
mtc <- mtcars[,2:8]
mtcn <- data.matrix(mtc)
clust <- varclus(mtcn)
clust
plot(clust)
?varclus :
对变量进行层次聚类分析,使用 Hoeffding D 统计量、平方 Pearson 或 Spearman 相关性或两个变量均为正的观察比例作为相似性度量。变量聚类用于评估共线性、冗余,并将变量分成可以作为单个变量评分的聚类,从而减少数据。
对于二进制变量:
library(cluster)
data(animals)
ma <- mona(animals)
ma
plot(ma)
?mona :
返回一个列表,该列表表示仅具有二进制变量的数据集的分裂层次聚类。
于 2014-01-29T12:59:48.227 回答