5

我试图通过在线查找实际示例来了解 PCA。遗憾的是,我发现的大多数教程似乎并没有真正展示 PCA 的简单实际应用。经过大量搜索,我遇到了这个

http://yatani.jp/HCIstats/PCA

这是一个很好的简单教程。我想在 Matlab 中重新创建结果,但教程是在 R 中。我一直试图在 Matlab 中复制结果,但到目前为止没有成功;我是 Matlab 的新手。我创建了如下数组:

Price = [6,7,6,5,7,6,5,6,3,1,2,5,2,3,1,2];
Software = [5,3,4,7,7,4,7,5,5,3,6,7,4,5,6,3];
Aesthetics = [3,2,4,1,5,2,2,4,6,7,6,7,5,6,5,7];
Brand = [4,2,5,3,5,3,1,4,7,5,7,6,6,5,5,7];

然后在他的例子中,他这样做

data <- data.frame(Price, Software, Aesthetics, Brand)

我在网上进行了快速搜索,这显然将向量转换为 R 代码中的数据表。所以在Matlab中我做了这个

dataTable(:,1) = Price;
dataTable(:,2) = Software;
dataTable(:,3) = Aesthetics;
dataTable(:,4) = Brand;

现在是我不确定的下一部分。

pca <- princomp(data, cor=TRUE)
summary(pca, loadings=TRUE)

我试过使用 Matlab 的 PCA 函数

 [COEFF SCORE LATENT] = princomp(dataTable)

但我的结果与教程中显示的结果完全不匹配。我的结果是

COEFF =

   -0.5958    0.3786    0.7065   -0.0511
   -0.1085    0.8343   -0.5402   -0.0210
    0.6053    0.2675    0.3179   -0.6789
    0.5166    0.2985    0.3287    0.7321


SCORE =

   -2.3362    0.0276    0.6113    0.4237
   -4.3534   -2.1268    1.4228   -0.3707
   -1.1057   -0.2406    1.7981    0.4979
   -3.6847    0.4840   -2.1400    1.0586
   -1.4218    2.9083    1.2020   -0.2952
   -3.3495   -1.3726    0.5049    0.3916
   -4.1126    0.1546   -2.4795   -1.0846
   -1.7309    0.2951    0.9293   -0.2552
    2.8169    0.5898    0.4318    0.7366
    3.7976   -2.1655   -0.2402   -1.2622
    3.3041    1.0454   -0.8148    0.7667
    1.4969    2.9845    0.7537   -0.8187
    2.3993   -1.1891   -0.3811    0.7556
    1.7836   -0.0072   -0.2255   -0.7276
    2.2613   -0.1977   -2.4966    0.0326
    4.2350   -1.1899    1.1236    0.1509


LATENT =

    9.3241
    2.2117
    1.8727
    0.5124 

然而教程中的结果是

Importance of components:
            Comp.1    Comp.2    Comp.3     Comp.4
Standard deviation     1.5589391 0.9804092 0.6816673 0.37925777
Proportion of Variance 0.6075727 0.2403006 0.1161676 0.03595911
Cumulative Proportion  0.6075727 0.8478733 0.9640409 1.00000000

Loadings:
        Comp.1 Comp.2 Comp.3 Comp.4
Price      -0.523         0.848       
Software   -0.177  0.977 -0.120       
Aesthetics  0.597  0.134  0.295 -0.734
Brand       0.583  0.167  0.423  0.674

谁能解释为什么我的结果与教程有很大不同。我使用了错误的 Matlab 函数吗?

此外,如果您能够提供任何其他不错的简单实用的 PCA 应用程序,那将是非常有益的。仍在尝试了解 PCA 中的所有概念,并且我喜欢可以编写代码并自己查看结果的示例,因此我可以使用它,我发现以这种方式学习更容易

任何帮助将非常感激!!

4

1 回答 1

4

编辑:问题纯粹是缩放。

代码:

summary(princomp(data, cor = FALSE), loadings=T, cutoff = 0.01)

Loadings:
           Comp.1 Comp.2 Comp.3 Comp.4
Price      -0.596 -0.379  0.706 -0.051
Software   -0.109 -0.834 -0.540 -0.021
Aesthetics  0.605 -0.268  0.318 -0.679
Brand       0.517 -0.298  0.329  0.732

根据Matlab 的帮助,如果你想缩放,你应该使用它:

Matlab代码:

princomp(zscore(X))

旧答案(红鲱鱼):

help(princomp)(在 R 中):

计算是使用相关或协方差矩阵上的特征来完成的,由 cor 确定。这样做是为了与 S-PLUS 结果兼容。一种首选的计算方法是在 x 上使用 svd,就像在 prcomp 中所做的那样。

请注意,默认计算使用除数 N 作为协方差矩阵。

在 R 函数prcomp( help(prcomp)) 的文档中,您可以阅读:

计算是通过(居中和可能缩放的)数据矩阵的奇异值分解来完成的,而不是通过使用协方差矩阵上的特征来完成。这通常是数值精度的首选方法。[...] 与 princomp 不同,方差是用通常的除数 N - 1 计算的。

Matlab 函数显然使用了 svd 算法。如果我使用prcom(没有缩放,即不基于相关性)与我得到的示例数据:

> prcomp(data)
Standard deviations:
[1] 3.0535362 1.4871803 1.3684570 0.7158006

Rotation:
                  PC1       PC2        PC3         PC4
Price      -0.5957661 0.3786184 -0.7064672  0.05113761
Software   -0.1085472 0.8342628  0.5401678  0.02101742
Aesthetics  0.6053008 0.2675111 -0.3179391  0.67894297
Brand       0.5166152 0.2984819 -0.3286908 -0.73210631

这(除了不相关的符号)与 Matlab 输出相同。

于 2013-10-09T12:43:02.360 回答