与 netflix 竞赛类似,假设我们有一个缺少评分的电影数据集。我将如何修改 RBM 以允许它推断缺失值?在相关论文中,一种直接的方法是将随机值归因于缺失的可见特征。但是,我对重建准确性持怀疑态度,因为它可能取决于赋予这些缺失可见节点的初始值。
你有什么建议?
谢谢
与 netflix 竞赛类似,假设我们有一个缺少评分的电影数据集。我将如何修改 RBM 以允许它推断缺失值?在相关论文中,一种直接的方法是将随机值归因于缺失的可见特征。但是,我对重建准确性持怀疑态度,因为它可能取决于赋予这些缺失可见节点的初始值。
你有什么建议?
谢谢
https://www.youtube.com/watch?v=laVC6WFIXjg,也许这个视频会有所帮助。
我认为在输入随机值后采样是个好主意。Hinton 在这段视频中证明了这一点。你也可以尝试先估计,或者做很多样本,或者根据一些不同的方法进行猜测,然后进行重建。
在视频中,Hinton 说这种方法本身并不是很准确,但是当与矩阵分解(或其他类似方法)结合使用时,它会非常强大。
这个想法是执行交替吉布斯采样,但保持非缺失值固定为重建更新中的数据值。这样做直到缺失值在其马尔可夫链中达到平稳分布,并且您知道网络对它们应该是什么的最佳猜测。
实际上,对赋予这些缺失可见节点的初始值的依赖性可用于获得额外的 2-5% 的准确度。您可以在不同的初始化下多次运行 RBM,然后平均结果。每个结束状态都会出错,但它们会彼此不同。我尝试了它并不断改进它,直到 +/-20 次初始化......