tensorflow - Keras 和 TensorFlow 中所有这些交叉熵损失之间有什么区别？

Question

所有这些交叉熵损失之间有什么区别？

Keras 在谈论

二元交叉熵
分类交叉熵
稀疏分类交叉熵

虽然 TensorFlow 有

使用 logits 的 Softmax 交叉熵
带有 logits 的稀疏 softmax 交叉熵
带 logits 的 Sigmoid 交叉熵

它们之间有什么区别和关系？它们的典型应用是什么？有什么数学背景？还有其他应该知道的交叉熵类型吗？有没有没有 logits 的交叉熵类型？

score 30 · Accepted Answer

只有一个交叉（香农）熵定义为：

H(P||Q) = - SUM_i P(X=i) log Q(X=i)

在机器学习使用中，P是实际（基本事实）分布，Q是预测分布。您列出的所有函数都只是辅助函数，它们接受不同的方式来表示P和Q。

基本上有3个主要的事情需要考虑：

有两种可能的结果（二元分类）或更多。如果只有两个结果，那么Q(X=1) = 1 - Q(X=0)(0,1) 中的单个浮点数就可以识别整个分布，这就是为什么二元分类中的神经网络只有一个输出（逻辑回归也是如此）。如果有 K>2 个可能的结果，则必须定义 K 个输出（每个输出一个Q(X=...)）
一个要么产生适当的概率（意味着Q(X=i)>=0andSUM_i Q(X=i) =1或一个只产生一个“分数”，并且有一些将分数转换为概率的固定方法。例如，一个实数可以通过采用 sigmoid 来“转换为概率”，而一组实数可以通过取它们的 softmax 等来转换数字。
有j这样的P(X=j)=1（有一个“真正的类别”，目标是“硬的”，比如“这张图片代表一只猫”）或者有“软目标”（比如“我们 60% 确定这是一只猫，但是对于40% 它实际上是一只狗”）。

根据这三个方面，应该使用不同的辅助函数：

                                  outcomes     what is in Q    targets in P   
-------------------------------------------------------------------------------
binary CE                                2      probability         any
categorical CE                          >2      probability         soft
sparse categorical CE                   >2      probability         hard
sigmoid CE with logits                   2      score               any
softmax CE with logits                  >2      score               soft
sparse softmax CE with logits           >2      score               hard

最后，人们可以只使用“分类交叉熵”，因为这是在数学上定义的，但是由于硬目标或二进制分类之类的东西非常流行——现代 ML 库确实提供了这些额外的辅助函数以使事情变得更简单。特别是“堆叠” sigmoid 和交叉熵可能在数值上不稳定，但如果知道这两个操作一起应用 - 有一个组合起来的数值稳定版本（在 TF 中实现）。

重要的是要注意，如果您应用了错误的辅助函数，代码通常仍会执行，但结果将是错误的。例如，如果您将 softmax_* 辅助程序应用于具有一个输出的二进制分类，您的网络将被视为始终在输出处产生“真”。

最后一点 - 这个答案考虑了分类，当您考虑多标签情况（当一个点可以有多个标签时）时，它略有不同，因为 Ps 总和不等于 1，尽管有多个输出单元，但应该使用 sigmoid_cross_entropy_with_logits .

score 9 · Accepted Answer

罗吉特

为此，“logits”可以被视为模型的非激活输出。

虽然Keras损失总是采用“激活”输出（您必须在损失之前应用“sigmoid”或“softmax”）
Tensorflow将它们与“logits”或“未激活”一起使用（您不应该在丢失之前应用“sigmoid”或“softmax”）

“带有 logits”的损失将在内部应用激活。某些函数允许您选择logits=True或logits=False，这将告诉函数是“应用”还是“不应用”激活。

疏

稀疏函数使用目标数据（ground truth）作为“整数标签”：0、1、2、3、4.....
非稀疏函数使用目标数据作为“单热标签”：[1,0,0], [0,1,0], [0,0,1]

二元交叉熵 = Sigmoid 交叉熵

问题类型：
- 单类（假/真）；或者
- 非排他性的多类（许多类可能是正确的）
模型输出形状：(batch, ..., >=1)
激活："sigmoid"

分类交叉熵 = Softmax 交叉熵

问题类型：排他类（可能只有一个类是正确的）
模型输出形状：(batch, ..., >=2)
激活："softmax"

tensorflow - Keras 和 TensorFlow 中所有这些交叉熵损失之间有什么区别？

2 回答 2

罗吉特

疏

二元交叉熵 = Sigmoid 交叉熵

分类交叉熵 = Softmax 交叉熵

Related

Reference