我一直在研究 R 中的主成分分析的概念。
我很乐意将 PCA 应用于(例如,标记的)数据集,并最终从我的矩阵中提取出最有趣的前几个主成分作为数值变量。
从某种意义上说,最终的问题是,现在怎么办?在计算完成后,我在 PCA 上遇到的大部分阅读都会立即停止,尤其是在机器学习方面。请原谅我的夸张,但我觉得好像每个人都同意该技术很有用,但没有人愿意在使用它之后真正使用它。
更具体地说,这是我真正的问题:
我尊重主成分是您开始使用的变量的线性组合。那么,这种转换后的数据如何在监督机器学习中发挥作用呢?有人怎么可能使用 PCA 作为一种降低数据集维数的方法,然后将这些组件与监督学习器一起使用,比如 SVM?
我对我们的标签会发生什么感到非常困惑。一旦我们进入本征空间,那就太好了。但是,如果这种转变打破了我们的分类概念,我看不到任何继续推进机器学习的方法(除非我没有遇到过“是”或“否”的某种线性组合!)
如果您有时间和财力,请介入并纠正我。提前致谢。