2

我正在使用SklearnGPflow执行 PCA 分析。我注意到两个库返回的输出不匹配。

请参阅下面的示例代码片段-

import numpy as np
from gpflow.models import PCA_reduce
from sklearn.decomposition import PCA

X = np.random.random((100, 10))

for n in range(1, 6):
    X1 = PCA(n_components=n).fit_transform(X)
    X2 = PCA_reduce(X, n)
    print('[n=%d] allclose=%s' % (n, np.allclose(X1, X2)))

下面是输出 -

[n=1] allclose=True
[n=2] allclose=False
[n=3] allclose=False
[n=4] allclose=False
[n=5] allclose=False

它仅在主成分数为 1 时匹配。为什么会出现这种行为?

4

1 回答 1

3

这里有两个不同的问题:

  1. 这两种方法的特征值顺序是相反的。在 sklearn 实现中,特征向量按其特征值的大小递减排序,而在 gpflow 实现中,它们按递增大小排序。特别是,您应该PCA(n).fit_transform(X)PCA_reduce(X, n)[:, ::-1]. 当然,这也解释了为什么只使用一个组件就能得到预期的结果。

  2. 然而,这本身是不够的:如果 $v$ 是具有给定特征值的长度为 1 的特征向量,那么 $-v$ 也是如此,因此您不能简单地使用它np.allclose来确定结果是否一致;您需要考虑潜在的逆转。因此,相反,您可以使用类似a = np.all(np.isclose(X1, X2), 0)直接比较向量的方法,b = np.all(np.isclose(X1, -X2), 0)(注意减号)在所有向量X2都反转时比较它们,从那时起,a | b成为它们同意反转的条件。最后,np.all(a | b)将检查这是否适用于每个特征向量。

确实,对您的测试的以下修改会吐出所有正确的结果:

In [74]: for n in range(1, 6):
    ...:     X1 = PCA(n_components=n).fit_transform(X)
    ...:     X2 = PCA_reduce(X, n)[:, ::-1]
    ...:     print('[n=%d] allclose=%s' % (n, np.all(np.all(np.isclose(X1, X2), 0) | np.all(np.isclose(X1, -X2), 0))))

[n=1] allclose=True
[n=2] allclose=True
[n=3] allclose=True
[n=4] allclose=True
[n=5] allclose=True
于 2018-11-03T11:16:13.323 回答