0

设 X 为 m×n(m:记录数,n:属性数)数据集。当属性数 n 较大且数据集 X 有噪声时,分类变得更加复杂,分类精度降低。解决这个问题的一种方法是使用线性变换,即对Y=XR进行分类,其中R是n×p矩阵,p<=n。我想知道线性变换如何简化分类?如果我们在 X 有噪声时对转换后的数据 Y 进行分类,为什么分类精度会提高?

4

1 回答 1

0

并非每种线性变换都有效,但某些线性变换有时很有用。具体来说,主成分分析 (PCA)因子分析是通常用于降维的线性变换。

基本思想是,大部分信息可能包含在数据集特征的某种线性组合中,并且通过丢弃其余信息,我们强迫自己使用更简单的模型/减少过度拟合。

这并不总是那么好。例如,即使其中一个特征实际上是我们试图分类的东西,它仍然可能被 PCA 丢弃,因为它具有低可变性 - 从而丢失了重要信息。

于 2014-04-26T21:48:15.227 回答