我有一个 180 个元素的特征向量,并在其上应用了 PCA。问题是第一台电脑的方差很大,但根据这张 pc1 与 pc2 的双标图,这似乎是由于异常值而发生的。这对我来说很奇怪。
显然,第一台 PC 并不是这里分类的最佳指标。
我为此使用 R。有什么建议为什么会发生这种情况以及我该如何解决这个问题?我应该删除异常值吗?如果是,那么 R 最好的方法是什么?
- 编辑
我prcomp(features.df, center= TRUE, scale = TRUE)
用来规范化数据。
即使没有异常值,如果您的目标是分类,即“歧视”((在统计上下文中,完全“政治化”这个词现在很少见)),PCA 也可能完全没有意义。这就是为什么“他们”发明了“crimcoords”,它与“prin.coords”不同但与“prin.coords”相关,后者是“主坐标”的统计俚语(与您的主成分有关)。“Crimcoords”似乎不再容易在网上找到;在上个世纪,每个优秀的统计学家都知道 +- 他们是什么。一个很好的参考似乎是 Gnanadesikan 的专着“多变量观察的统计数据分析方法”(1977 年第 1 版,1997 年第 2 版;威利)。
Ram Gnanadesikan 已经非常清楚异常值的问题,因此提到了“稳健”的方法。
如今,用于稳健多元统计的“标准”R 包是“ rrcov ”(由 Valentin Todorov 撰写)......该主题的现代版本(我认为允许“套索”类型正则化)是包“ rrlda ”,其主要功能rrlda()
确实允许鲁棒性和 Lasso (L1) 惩罚。