tensorflow - 为什么带有 sigmoid 的神经网络的代码与带有 softmax_cross_entropy_with_logits 的代码如此不同？

Question

在使用神经网络进行分类时，据说：

在 TensorFlow 中计算 softmax 交叉熵的方法似乎是这样的：

cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=prediction,labels=y))

所以输出可以直接连接到最小化代码，这很好。

我的 sigmoid 输出代码同样基于各种教程和示例，大致如下：

p = tf.sigmoid(tf.squeeze(...))
cost = tf.reduce_mean((p - y)**2)

我原以为两者在形式上应该相似，因为它们以几乎相同的方式完成相同的工作，但上面的代码片段看起来几乎完全不同。此外，sigmoid 版本显式地平方误差，而 softmax 则没有。（平方是在 softmax 的实现中发生的，还是发生了其他事情？）

以上其中一项是完全不正确的，还是有理由让它们完全不同？

score 1 · Accepted Answer

soft-max 交叉熵成本和 sigmoid 的平方损失成本是完全不同的成本函数。尽管它们似乎密切相关，但它并不是一回事。

如果工作被定义为“成为分类网络的输出层”，那么这两个功能确实是“做同样的工作”。同样，您可以说“softmax 回归和神经网络在做同样的工作”。确实，这两种技术都试图对事物进行分类，但方式不同。

具有交叉熵代价的 softmax 层通常优于具有 l2-loss 的 sigmoid。具有交叉熵的 Softmax 有其自身的优点，例如输出层的梯度更强和对概率向量的归一化，而具有 l2-loss 的 sigmoid 的导数较弱。你可以在这本漂亮的书中找到很多解释。

1 回答 1