我有一个大 (10000 X 5001) 表,代表 10000 个样本和这些样本的 5001 个不同特征。这些特征之一代表每个样本的输出变量。换句话说,每个样本有 5000 个输入变量和一个输出变量。
我知道这些输入中的大多数都是无关紧要的。因此,我想做的是确定最能预测输出变量的输入变量子集。在 R 中执行此操作的最佳/最简单方法是什么?
我有一个大 (10000 X 5001) 表,代表 10000 个样本和这些样本的 5001 个不同特征。这些特征之一代表每个样本的输出变量。换句话说,每个样本有 5000 个输入变量和一个输出变量。
我知道这些输入中的大多数都是无关紧要的。因此,我想做的是确定最能预测输出变量的输入变量子集。在 R 中执行此操作的最佳/最简单方法是什么?
您可能需要主成分分析 (stats::prcomp) 或线性判别分析 (MASS::lda)。
请参阅 Avril Coghlan 的这份文件
http://little-book-of-r-for-multivariate-analysis.readthedocs.org/en/latest/
您可能想查看Weka。在Explorer
加载数据然后转到Select attributes
选项卡。在那里,您将找到几个选项来获取数据集中信息最多的属性/特征。
与其采用“随机”建议,不如前往 CRAN 任务视图进行聚类分析和有限混合模型?