我试图了解 fit_transform 方法和 sklearn.decomposition.DictionaryLearning 中的 components_ 数组返回的值。
从文档看来 fit_transform 返回稀疏表示的输入数据, components_ 包含原子。
我使用以下代码在数字数据集上运行 sklearn.decomposition.DictionaryLearning:
sample_data=digits.data[:40,:]
dl = DictionaryLearning(n_components=36, fit_algorithm='lars', transform_algorithm='lasso_lars')
X_dict = dl.fit_transform(sample_data)
当我使用以下代码绘制 fit_transform 返回的 X_dict (根据文档是转换后的输入数据)时:
fig = plt.figure(figsize=(6, 6))
for i in range(36):
ax = fig.add_subplot(6, 6, i + 1, xticks=[], yticks=[])
ax.imshow(X_dict.reshape(-1, 6, 6)[i], cmap='Greys_r',
interpolation='nearest')
当我使用以下代码绘制 components_ 的内容(应该打印原子)时:
fig, ax = plt.subplots(6, 6, figsize=(8, 8))
samples = [dl.components_[x].reshape((8, 8)) for x in range(34)]
for i in range(6):
for j in range(6):
ax[i, j].set_axis_off()
ax[i, j].imshow(samples[(i * 5) + j], cmap='gray')
plt.show()
这就是我得到的:
现在我的问题是,这是正确的吗?从我对字典学习的理解来看,我觉得第一个图像看起来更像原子,而后者看起来更像是转换后的输入。
有人可以解释一下原子和转换后的数据之间的区别,并告诉我这些图像中的哪一个是哪一个?