0

我在二进制属性上使用 PCA 来减少问题的维度(属性)。初始维度是 592,在 PCA 之后维度是 497。我之前在另一个问题中的数字属性上使用过 PCA,它设法在更大程度上减少了维度(初始维度的一半)。我相信二元属性会降低 PCA 的能力,但我不知道为什么。您能否解释一下为什么 PCA 不像在数字数据中那样好用。

谢谢你。

4

1 回答 1

4

0/1 数据的主成分可以缓慢或快速地下降,连续数据的 PC 也是如此——这取决于数据。你能描述一下你的数据吗?

下图旨在比较连续图像数据的 PC 与量化为 0/1 的相同数据的 PC:在这种情况下,不确定。

将 PCA 视为一种获取大矩阵近似值的方法,
首先使用一个术语:近似 A ~ c UV T , c [Ui Vj]。
考虑一下,A 说 10k x 500:U 10k 长,V 500 长。第一行是 c U1 V,第二行是 c U2 V ...所有行都与 V 成正比。类似地,最左边的列是 c U V1 ...所有列都与 U 成正比。
但是如果所有行都是相似(彼此成比例),它们无法接近具有行或列 0100010101 的 A 矩阵 ...
更多术语,A ~ c1 U1 V1 T + c2 U2 V2 T + ...,我们可以更接近A:越小 c i越高,越快。(当然,所有 500 个项都精确地重新创建 A,在舍入误差内。)

在此处输入图像描述 第一行是“lena”,一个著名的 512 x 512 矩阵,具有 1 项和 10 项 SVD 近似值。底行是 lena 离散化为 0/1,同样有 1 项和 10 项。我认为 0/1 的 lena 会更糟——评论,有人吗?

(UV T也写作 U ⊗ V,称为“二元”或“外积”。)

(维基百科文章 奇异值分解低秩近似 有点数学重。David Austin 的 AMS 专栏, 我们推荐奇异值分解 给出了一些关于 SVD/PCA 的直觉——强烈推荐。)

于 2012-11-23T15:03:52.920 回答