1

我有一个大 (10000 X 5001) 表,代表 10000 个样本和这些样本的 5001 个不同特征。这些特征之一代表每个样本的输出变量。换句话说,每个样本有 5000 个输入变量和一个输出变量。

我知道这些输入中的大多数都是无关紧要的。因此,我想做的是确定最能预测输出变量的输入变量子集。在 R 中执行此操作的最佳/最简单方法是什么?

4

3 回答 3

0

您可能需要主成分分析 (stats::prcomp) 或线性判别分析 (MASS::lda)。

请参阅 Avril Coghlan 的这份文件

http://little-book-of-r-for-multivariate-analysis.readthedocs.org/en/latest/

于 2012-06-03T22:26:10.717 回答
0

您可能想查看Weka。在Explorer加载数据然后转到Select attributes选项卡。在那里,您将找到几个选项来获取数据集中信息最多的属性/特征。

于 2012-06-03T22:46:21.853 回答
0

与其采用“随机”建议,不如前往 CRAN 任务视图进行聚类分析和有限混合模型

于 2012-06-04T00:33:34.593 回答