我想将算法的输出与不同的预处理数据进行比较:NMF 和 PCA。为了以某种方式获得可比较的结果,而不是为每个 PCA 和 NMF 选择相同数量的组件,我想选择解释例如 95% 的保留方差的数量。
我想知道是否可以识别 NMF 的每个组件中保留的方差。
例如,使用 PCA 可以通过以下方式给出:
retainedVariance(i) = eigenvalue(i) / sum(eigenvalue)
有任何想法吗?
我想将算法的输出与不同的预处理数据进行比较:NMF 和 PCA。为了以某种方式获得可比较的结果,而不是为每个 PCA 和 NMF 选择相同数量的组件,我想选择解释例如 95% 的保留方差的数量。
我想知道是否可以识别 NMF 的每个组件中保留的方差。
例如,使用 PCA 可以通过以下方式给出:
retainedVariance(i) = eigenvalue(i) / sum(eigenvalue)
有任何想法吗?
您应该在每次迭代时遍历不同的n_components
和估计explained_variance_score
的解码。X
这将显示您需要多少组件来解释 95% 的方差。
现在我将解释原因。
NMF 和 PCA 与许多其他无监督学习算法一样,旨在做两件事:
X
为压缩表示H
;H
回X'
,应该尽可能接近X
。他们以某种类似的方式做到这一点:
X' = dot(H, W)
,其中W
是学习的矩阵参数。H = dot(X, V)
,其中V
也是一个学习参数。在 NMF 中,H = argmin(loss(X, H, W))
(H
仅关于),其中是和loss
之间的均方误差,加上一些额外的惩罚。最小化是通过坐标下降来执行的,结果可能是非线性的。X
dot(H, W)
X
k
分量最小化剩余 MSE,但要与前面的分量正交。NMF 最小化与loss(X, H, W)
编码时相同,但现在针对H
和W
。如果要测量编码/解码算法的性能,可以按照通常的步骤操作:
X_train
X_train'=decode(encode(X_train))
与X_train
使用您的首选指标(例如 MAE、RMSE 或解释方差)进行比较X_test
。让我们试试PCA
and NMF
!
from sklearn import decomposition, datasets, model_selection, preprocessing, metrics
# use the well-known Iris dataset
X, _ = datasets.load_iris(return_X_y=True)
# split the dataset, to measure overfitting
X_train, X_test = model_selection.train_test_split(X, test_size=0.5, random_state=1)
# I scale the data in order to give equal importance to all its dimensions
# NMF does not allow negative input, so I don't center the data
scaler = preprocessing.StandardScaler(with_mean=False).fit(X_train)
X_train_sc = scaler.transform(X_train)
X_test_sc = scaler.transform(X_test)
# train the both decomposers
pca = decomposition.PCA(n_components=2).fit(X_train_sc)
nmf = decomposition.NMF(n_components=2).fit(X_train_sc)
print(sum(pca.explained_variance_ratio_))
它将打印您解释的方差比0.9536930834362043
- PCA 的默认度量,使用其特征值估计。我们可以用更直接的方式来衡量它——通过将度量应用于实际值和“预测”值:
def get_score(model, data, scorer=metrics.explained_variance_score):
""" Estimate performance of the model on the data """
prediction = model.inverse_transform(model.transform(data))
return scorer(data, prediction)
print('train set performance')
print(get_score(pca, X_train_sc))
print(get_score(nmf, X_train_sc))
print('test set performance')
print(get_score(pca, X_test_sc))
print(get_score(nmf, X_test_sc))
这使
train set performance
0.9536930834362043 # same as before!
0.937291711378812
test set performance
0.9597828443047842
0.9590555069007827
您可以看到 PCA 在训练集上的表现优于 NMF,但在测试集上它们的表现几乎相同。发生这种情况是因为 NMF 应用了大量的正则化:
H
和W
(学习的参数)必须是非负的H
应该尽可能小(L1 和 L2 惩罚)W
应该尽可能小(L1 和 L2 惩罚)这些正则化使 NMF 对训练数据的拟合比可能的更差,但它们可能会提高其泛化能力,这发生在我们的案例中。
在PCA中,这很简单,因为它的组件h_1, h_2, ... h_k
是按顺序学习的。如果添加新组件h_(k+1)
,则第一个k
不会更改。因此,您可以估计每个组件的性能,并且这些估计不会依赖于组件的数量。这使得 PCA 可以explained_variance_ratio_
在仅一次拟合数据后输出数组。
NMF更复杂,因为它的所有组件都是同时训练的,并且每个组件都依赖于其余所有组件。因此,如果您添加第k+1
th 个组件,第一个k
组件将发生变化,并且您无法将每个特定组件与其解释的方差(或任何其他指标)匹配。
但是您可以NMF
为每个组件数量拟合一个新实例,并比较总解释方差:
ks = [1,2,3,4]
perfs_train = []
perfs_test = []
for k in ks:
nmf = decomposition.NMF(n_components=k).fit(X_train_sc)
perfs_train.append(get_score(nmf, X_train_sc))
perfs_test.append(get_score(nmf, X_test_sc))
print(perfs_train)
print(perfs_test)
这会给
[0.3236945680665101, 0.937291711378812, 0.995459457205891, 0.9974027602663655]
[0.26186701106012833, 0.9590555069007827, 0.9941424954209546, 0.9968456603914185]
因此,需要三个分量(根据训练集性能判断)或两个分量(根据测试集)来解释至少 95% 的方差。请注意,这种情况是不寻常的,并且是由少量的训练和测试数据引起的:通常在测试集上性能会下降一点,但在我的情况下它实际上有所改善。