39

想请教大家一个问题,相关特征(变量)如何影响机器学习算法的分类准确率。对于相关特征,我指的是它们之间的相关性,而不是与目标类别(即几何图形的周长和面积或教育水平和平均收入)之间的相关性。在我看来,相关特征会对分类算法的准确性产生负面影响,我想说是因为相关性使得其中一个变得无用。真的是这样吗?问题是否随分类算法类型而改变?任何关于论文和讲座的建议都非常欢迎!谢谢

4

2 回答 2

29

相关特征本身不影响分类准确性。实际情况下的问题是,我们有有限数量的训练示例来训练分类器。对于固定数量的训练示例,增加特征数量通常会将分类准确度提高到一个点,但随着特征数量的不断增加,分类准确度最终会降低,因为我们相对于大量特征而言采样不足。要了解有关此含义的更多信息,请查看维度诅咒

如果两个数字特征完全相关,则其中一个不会添加任何附加信息(由另一个决定)。因此,如果特征数量过多(相对于训练样本大小),则通过特征提取技术(例如,通过主成分)减少特征数量是有益的

相关性的效果确实取决于分类器的类型。一些非参数分类器对变量的相关性不太敏感(尽管训练时间可能会随着特征数量的增加而增加)。对于高斯最大似然等统计方法,相对于训练样本量有太多相关特征会导致分类器在原始特征空间中无法使用(样本数据的协方差矩阵变得奇异)。

于 2013-02-11T14:45:40.007 回答
2

一般来说,我会说特征越不相关,分类器的性能就会越好。给定一组高度相关的特征,可以使用 PCA 技术使它们尽可能正交,以提高分类器性能。

于 2013-02-11T14:43:20.590 回答