1

我已经训练了一个单层、100 个隐藏单元 RBM,其中包含二进制输入单元和隐藏层上的 ReLU 激活。使用包含 50k MNIST 图像的训练集,经过 500 个具有动量和 L1 权重惩罚的全批次训练,我最终在 10k 图像测试集上获得了约 5% 的 RMSE。

看下面的可视化,很明显隐藏单元之间存在很大差异。有些似乎已经融合成一个非常明确的响应模式,而另一些则与噪声无法区分。

我的问题是:您如何解释这种明显的变化,以及什么技术可能有助于实现更平衡的结果?这种情况是否需要更多的正则化、更慢的学习、更长的学习或其他?

100 个隐藏单元的原始权重,重新调整为输入图像大小。

4

0 回答 0