我正在使用高斯混合模型进行图像分类。我有大约 34,000 个特征,属于三个类别,都位于 23 维空间中。我使用不同的方法对训练和测试数据进行了特征缩放,我观察到执行缩放后准确度实际上会降低。我执行了特征缩放,因为许多特征之间存在许多阶数的差异。我很想知道为什么会这样,我认为特征缩放会提高准确性,特别是考虑到特征的巨大差异。
1 回答
我认为特征缩放会提高准确性,特别是考虑到特征的巨大差异。
欢迎来到现实世界的朋友。
通常,您确实希望功能具有相同的“比例”,这样您就不会让某些功能“支配”其他功能。如果您的机器学习算法本质上是“几何”的,则尤其如此。通过“几何”,我的意思是将样本视为空间中的点,并且在进行预测时依赖点之间的距离(通常是欧几里得/L2),即点的空间关系很重要。GMM 和 SVM 就是这种性质的算法。
但是,特征缩放可能会搞砸事情,特别是如果某些特征本质上是分类/有序的,并且当您将它们附加到其余特征时您没有正确预处理它们。此外,根据您的特征缩放方法,特定特征的异常值的存在也会破坏该特征的特征缩放。例如,“最小/最大”或“单位方差”缩放将对异常值敏感(例如,如果您的一个特征对年收入或现金余额进行编码,并且您的数据集中有一些 mi/billionaires)。
此外,当您遇到此类问题时,原因可能并不明显。这并不意味着您执行了特征缩放,结果变坏了,那么特征缩放就有问题了。可能是您的方法一开始就搞砸了,而特征缩放后的结果恰好更搞砸了。
那么您的问题的其他原因可能是什么?
- 我猜测最可能的原因是您拥有高维数据并且没有足够的训练样本。这是因为您的 GMM 将使用维度为 34000 的数据来估计协方差矩阵。除非您有大量数据,否则您的一个或多个协方差矩阵(每个高斯一个)可能会接近奇异或奇异。这意味着您的 GMM 的预测一开始就是无稽之谈,因为您的高斯“炸毁”了,和/或 EM 算法在预定义的迭代次数后就放弃了。
- 糟糕的测试方法。您没有将数据划分为适当的训练/验证/测试集,并且您没有正确执行测试。你一开始有什么“好”的表现是不可信的。这实际上很常见,因为自然趋势是使用模型拟合的训练数据而不是验证或测试集进行测试。
所以,你可以做什么?
- 不要使用 GMM 进行图像分类。使用适当的 监督学习算法,尤其是当您知道图像类别作为标签时。特别是,要完全避免特征缩放,请使用随机森林或其变体(例如,极其随机的树)。
- 获取更多训练数据。除非您对“简单”(即“玩具”/合成图像)进行分类,或者将它们分类为几个图像类别(例如,<= 5。请注意,这只是我从空中提取的一个随机小数。) ,你真的每堂课都有很多图像。一个好的起点是每个类至少获得几百个,或者使用更复杂的算法来利用数据中的结构以获得更好的性能。
基本上,我的观点是不要(只是)将机器学习领域/算法视为黑匣子和一堆你记住并随机尝试的技巧。尝试理解引擎盖下的算法/数学。这样,您将能够更好地诊断遇到的问题。
编辑(响应@Zee 的澄清请求)
对于论文,我唯一能想到的就是LibSVM 的作者编写的支持向量分类实用指南。其中的示例显示了 SVM 在各种数据集上进行特征缩放的重要性。例如,考虑 RBF/高斯核。该内核使用平方 L2 范数。如果您的功能具有不同的规模,这将影响价值。
此外,您如何表示您的功能也很重要。例如,将表示高度的变量从米更改为厘米或英寸将影响诸如 PCA 之类的算法(因为该特征沿方向的方差已更改。)请注意,这不同于“典型”缩放(例如,最小/最大、Z -score 等),因为这是一个表示问题。无论单位如何,人仍然是相同的高度。而典型的特征缩放会“转换”数据,从而改变人的“身高”。David Mackay 教授在他的著作《机器学习的信息论》的亚马逊页面上,当被问及为什么他的书中没有包含 PCA 时,他有这样的评论。
对于序数和分类变量,它们在机器学习的贝叶斯推理,统计学习的要素中有简要提及。他们提到了将它们编码为特征的方法,例如,用 3 个二进制变量替换可以表示 3 个类别的变量,其中一个设置为“1”以指示样本具有该类别。这对于线性回归(或线性分类器)等方法很重要。请注意,这是关于编码分类变量/特征,而不是缩放本身,但它们是特征预处理设置的一部分,因此了解它很有用。更多内容可以在下面的 Hal Duame III 书中找到。
Hal Duame III的《机器学习课程》一书。搜索“缩放”。书中最早的例子之一是它如何影响 KNN(它只使用 L2 距离,如果您使用 RBF/高斯内核,则使用 GMM、SVM 等)。更多细节在第 4 章“机器学习实践”中给出。不幸的是,图像/绘图未显示在 PDF 中。这本书对特征编码和缩放有最好的处理方法之一,特别是如果你从事自然语言处理 (NLP) 方面的工作。例如,请参阅他对将对数应用于特征的解释(即对数变换)。这样,对数的总和成为特征乘积的对数,并且这些特征的“效果”/“贡献”以对数递减。
请注意,上述所有教科书均可从上述链接免费下载。