我读过这篇关于自动编码器的文章,由 Andrew Ng 介绍。在那里,他使用像正则化这样的稀疏性来断开连接,但稀疏性的公式与 regur 不同。所以,我想知道为什么我们不直接使用像神经网络模型或逻辑回归这样的正则化术语: (1/2 * m) * Theta^2 ?
问问题
1217 次
1 回答
1
首先,让我们从一些命名约定开始,对权重的稀疏惩罚和 L2 惩罚都可以(并且经常)称为正则化器. 因此,问题应该是“为什么使用基于稀疏的正则化而不是基于简单的 L2 范数?”。这个问题没有简单的答案,因为它没有深入到基础数学,而是询问有什么更好的方法来确保我们的网络创建一个很好的泛化表示 - 将参数或多或少地保持在固定范围内(L2 正则化,您建议的)或确保我们将任何内容作为网络输入,它将产生相对简单的表示(可能以拥有大量很少使用的权重/神经元为代价)。即使在这个抽象级别上,它也应该显示这两个正则化器之间的定性差异,这将导致构建完全不同的模型。稀疏项总是会更好吗?可能不是,ML 中几乎没有“
于 2016-09-24T16:13:08.337 回答