machine-learning - 使用受限玻尔兹曼机推断缺失数据

Question

与 netflix 竞赛类似，假设我们有一个缺少评分的电影数据集。我将如何修改 RBM 以允许它推断缺失值？在相关论文中，一种直接的方法是将随机值归因于缺失的可见特征。但是，我对重建准确性持怀疑态度，因为它可能取决于赋予这些缺失可见节点的初始值。

你有什么建议？

谢谢

score 2 · Accepted Answer

我认为在输入随机值后采样是个好主意。Hinton 在这段视频中证明了这一点。你也可以尝试先估计，或者做很多样本，或者根据一些不同的方法进行猜测，然后进行重建。

在视频中，Hinton 说这种方法本身并不是很准确，但是当与矩阵分解（或其他类似方法）结合使用时，它会非常强大。

score 2 · Accepted Answer

这个想法是执行交替吉布斯采样，但保持非缺失值固定为重建更新中的数据值。这样做直到缺失值在其马尔可夫链中达到平稳分布，并且您知道网络对它们应该是什么的最佳猜测。

score 1 · Accepted Answer

实际上，对赋予这些缺失可见节点的初始值的依赖性可用于获得额外的 2-5% 的准确度。您可以在不同的初始化下多次运行 RBM，然后平均结果。每个结束状态都会出错，但它们会彼此不同。我尝试了它并不断改进它，直到 +/-20 次初始化......

3 回答 3