machine-learning - 为什么线性变换可以提高高维数据分类的准确性和效率？

Question

设 X 为 m×n（m：记录数，n：属性数）数据集。当属性数 n 较大且数据集 X 有噪声时，分类变得更加复杂，分类精度降低。解决这个问题的一种方法是使用线性变换，即对Y=XR进行分类，其中R是n×p矩阵，p<=n。我想知道线性变换如何简化分类？如果我们在 X 有噪声时对转换后的数据 Y 进行分类，为什么分类精度会提高？

score 0 · Accepted Answer

并非每种线性变换都有效，但某些线性变换有时很有用。具体来说，主成分分析 (PCA)和因子分析是通常用于降维的线性变换。

基本思想是，大部分信息可能包含在数据集特征的某种线性组合中，并且通过丢弃其余信息，我们强迫自己使用更简单的模型/减少过度拟合。

这并不总是那么好。例如，即使其中一个特征实际上是我们试图分类的东西，它仍然可能被 PCA 丢弃，因为它具有低可变性 - 从而丢失了重要信息。

machine-learning - 为什么线性变换可以提高高维数据分类的准确性和效率？

1 回答 1

Related

Reference