r - 确定数据输入的重要子组

Question

我有一个大 (10000 X 5001) 表，代表 10000 个样本和这些样本的 5001 个不同特征。这些特征之一代表每个样本的输出变量。换句话说，每个样本有 5000 个输入变量和一个输出变量。

我知道这些输入中的大多数都是无关紧要的。因此，我想做的是确定最能预测输出变量的输入变量子集。在 R 中执行此操作的最佳/最简单方法是什么？

score 0 · Accepted Answer

您可能需要主成分分析 (stats::prcomp) 或线性判别分析 (MASS::lda)。

请参阅 Avril Coghlan 的这份文件

score 0 · Accepted Answer

您可能想查看Weka。在Explorer加载数据然后转到Select attributes选项卡。在那里，您将找到几个选项来获取数据集中信息最多的属性/特征。

score 0 · Accepted Answer

3 回答 3