r - 第一个主成分几乎包含所有信息，但它似乎不是分类的最佳指标

Question

我有一个 180 个元素的特征向量，并在其上应用了 PCA。问题是第一台电脑的方差很大，但根据这张 pc1 与 pc2 的双标图，这似乎是由于异常值而发生的。这对我来说很奇怪。

显然，第一台 PC 并不是这里分类的最佳指标。

这也是 pc2 与 pc3 的双标图：

我为此使用 R。有什么建议为什么会发生这种情况以及我该如何解决这个问题？我应该删除异常值吗？如果是，那么 R 最好的方法是什么？

- 编辑

我prcomp(features.df, center= TRUE, scale = TRUE)用来规范化数据。

score 0 · Accepted Answer

即使没有异常值，如果您的目标是分类，即“歧视”（（在统计上下文中，完全“政治化”这个词现在很少见）），PCA 也可能完全没有意义。这就是为什么“他们”发明了“crimcoords”，它与“prin.coords”不同但与“prin.coords”相关，后者是“主坐标”的统计俚语（与您的主成分有关）。“Crimcoords”似乎不再容易在网上找到；在上个世纪，每个优秀的统计学家都知道 +- 他们是什么。一个很好的参考似乎是 Gnanadesikan 的专着“多变量观察的统计数据分析方法”（1977 年第 1 版，1997 年第 2 版；威利）。

Ram Gnanadesikan 已经非常清楚异常值的问题，因此提到了“稳健”的方法。

如今，用于稳健多元统计的“标准”R 包是“ rrcov ”（由 Valentin Todorov 撰写）......该主题的现代版本（我认为允许“套索”类型正则化）是包“ rrlda ”，其主要功能rrlda()确实允许鲁棒性和 Lasso (L1) 惩罚。

r - 第一个主成分几乎包含所有信息，但它似乎不是分类的最佳指标

1 回答 1

Related

Reference