15

我正在使用 KNN 对手写数字进行分类。我现在也实施了 PCA 来降低维度。从 256 到 200。但我只注意到大约 0.10% 的信息丢失。我删除了 56 维。损失不应该更大吗?只有当我下降到 5 个维度时,我才会损失约 20%。这是正常的吗?

4

2 回答 2

10

你是说去掉56维后,你几乎没有丢失任何信息?当然,这就是 PCA 的重点!主成分分析,顾名思义,可以帮助您确定哪些维度承载信息。您可以删除其余部分,这是其中最大的一部分。

我想要一些例子,在基因分析中,我已经阅读了使用 PCA 将维度从 40'000 减少到 100 的论文,然后他们做了一些神奇的事情,并拥有一个具有 19 个维度的出色分类器。这隐含地告诉您,当他们删除 39,900 个维度时,他们几乎没有丢失任何信息!

于 2012-04-18T13:30:20.793 回答
1

这很正常,是的(就像 Fezvez 所说的那样)。你的案例实际上是一个很好的例子,你可以看到这是怎么可能的。

查看您的数据(这在机器学习中始终很重要,了解您的数据)。如果您在白色上有黑色手写数字的图像,则很可能所有样本的某些角落的像素都是白色的(当我对手写数字进行机器学习时,我在一个角落有这种情况)。因此,该像素中实际上没有任何信息。如果您将其作为 KNN 或 ANN 或其他任何东西的输入,您将得到相同的结果。

于 2012-04-26T21:02:16.643 回答