97

分类问题,例如逻辑回归或多项逻辑回归,可优化交叉熵损失。通常,交叉熵层在softmax层之后,产生概率分布。

在张量流中,至少有十几种不同的交叉熵损失函数

  • tf.losses.softmax_cross_entropy
  • tf.losses.sparse_softmax_cross_entropy
  • tf.losses.sigmoid_cross_entropy
  • tf.contrib.losses.softmax_cross_entropy
  • tf.contrib.losses.sigmoid_cross_entropy
  • tf.nn.softmax_cross_entropy_with_logits
  • tf.nn.sigmoid_cross_entropy_with_logits
  • ...

哪一个只适用于二元分类,哪一个适用于多类问题?什么时候应该使用sigmoid而不是softmax?功能sparse与其他功能有何不同,为什么只有softmax

相关(更多面向数学的)讨论:Keras 和 TensorFlow 中所有这些交叉熵损失之间有什么区别?.

4

3 回答 3

148

初步事实

  • 在功能意义上,sigmoid 是 softmax 函数的部分情况,当类的数量等于 2 时。它们都执行相同的操作:将 logits(见下文)转换为概率。

    在简单的二元分类中,两者之间没有太大区别,但是在多项分类的情况下,sigmoid 允许处理非排他性标签(又名多标签),而 softmax 处理排他类(见下文)。

  • 在计算概率之前,logit(也称为分数)是与 class 关联的原始未缩放值。就神经网络架构而言,这意味着 logit 是密集(全连接)层的输出。

    Tensorflow 的命名有点奇怪:下面的所有函数都接受 logits,而不是 probabilities,并自己应用转换(这更有效)。

Sigmoid 函数族

如前所述,sigmoid损失函数用于二元分类。但是当类是独立的时,张量流函数更通用并且允许进行多标签分类。换句话说,一次tf.nn.sigmoid_cross_entropy_with_logits解决N 二进制分类。

标签必须是一次性编码的,或者可以包含软类概率。

tf.losses.sigmoid_cross_entropy此外允许设置批量权重,即使某些示例比其他示例更重要。 tf.nn.weighted_cross_entropy_with_logits允许设置类权重 (记住,分类是二元的),即使正错误大于负错误。这在训练数据不平衡时很有用。

Softmax 函数族

这些损失函数应该用于多项互斥分类,即从N类中挑选一个。时也适用N = 2

标签必须是 one-hot 编码或可以包含软类概率:特定示例可以以 50% 的概率属于 A 类,以 50% 的概率属于 B 类。请注意,严格来说,这并不意味着它属于两个类,但可以这样解释概率。

就像在sigmoid家庭中一样,tf.losses.softmax_cross_entropy允许设置批量权重,即使某些示例比其他示例更重要。据我所知,从 tensorflow 1.3 开始,没有内置的方法来设置类 weights

[UPD]在 tensorflow 1.5 中,引入v2了版本并且不推荐使用原始损失。它们之间的唯一区别是,在较新的版本中,反向传播同时发生在 logits 和标签中(这里讨论了为什么这可能有用)。softmax_cross_entropy_with_logits

稀疏函数族

softmax上面普通的一样,这些损失函数应该用于多项互斥分类,即从N类中挑选一个。区别在于标签编码:类被指定为整数(类索引),而不是 one-hot 向量。显然,这不允许软类,但是当有数千或数百万个类时,它可以节省一些内存。但是,请注意,logits参数仍然必须包含每个类的 logits,因此它至少会消耗[batch_size, classes]内存。

像上面一样,tf.losses版本有一个weights参数允许设置批量权重。

采样的 softmax 函数族

这些函数为处理大量类提供了另一种选择。他们不是计算和比较精确的概率分布,而是从随机样本中计算损失估计。

参数weightsbiases指定一个单独的全连接层,用于计算所选样本的 logits。

像上面一样,labels不是 one-hot 编码,而是具有形状[batch_size, num_true].

采样函数仅适用于训练。在测试时,建议使用标准softmax损失(稀疏或单热)来获得实际分布。

另一种替代损失是tf.nn.nce_loss,它执行噪声对比估计(如果您有兴趣,请参阅这个非常详细的讨论)。我已将此函数包含在 softmax 系列中,因为 NCE 保证在限制范围内逼近 softmax。

于 2017-10-31T11:59:49.753 回答
5

但是,对于 1.5 版,softmax_cross_entropy_with_logits_v2必须改为使用,同时将其参数与 . 一起使用argument key=...,例如

softmax_cross_entropy_with_logits_v2(_sentinel=None, labels=y,
                                    logits=my_prediction, dim=-1, name=None)
于 2018-05-23T21:12:52.420 回答
3

虽然接受的答案包含的信息比所要求的要多得多,但我觉得分享一些通用的拇指规则将使答案更加紧凑和直观:

  • 只有一个真正的损失函数。这就是交叉熵(CE)。对于二元分类的特殊情况,这种损失称为二元 CE(注意公式不会改变),对于非二元或多类情况,这种损失称为分类 CE (CCE)。稀疏函数是分类 CE 的一种特殊情况,其中预期值不是单热编码而是整数
  • 我们有softmax公式,它是多类场景的激活。对于二进制场景,相同的公式被赋予一个特殊的名称 - sigmoid激活
  • 因为在处理对数函数时有时会出现数值不稳定(对于极值),TF 建议将激活层和损失层合并为一个函数。这个组合函数在数值上更稳定。TF 提供了这些组合功能,并以_with_logits为后缀

有了这个,让我们现在处理一些情况。假设有一个简单的二元分类问题——图像中是否存在猫?激活函数和损失函数的选择是什么?这将是一个 sigmoid 激活和一个(二进制)CE。所以可以使用sigmoid_cross_entropy或更优选sigmoid_cross_entropy_with_logits。后者结合了激活函数和损失函数,并且应该是数值稳定的。

多类分类怎么样。假设我们想知道图像中是否存在猫、狗或驴。激活函数和损失函数的选择是什么?这将是一个 softmax 激活和一个(分类)CE。因此,可以使用softmax_cross_entropy或更优选的是 softmax_cross_entropy_with_logits。我们假设期望值是 one-hot 编码的(100 或 010 或 001)。如果(出于某种奇怪的原因),情况并非如此,并且预期值为整数(1 或 2 或 3),您可以使用上述函数的“稀疏”对应项。

可能还有第三种情况。我们可以有一个多标签分类。因此,同一图像中可能有一只狗一只猫。我们如何处理这个?这里的技巧是将这种情况视为多个二元分类问题 - 基本上是猫或没有猫/狗或没有狗和驴或没有驴。找出 3 个(二元分类)中的每一个的损失,然后将它们相加。所以基本上这归结为使用sigmoid_cross_entropy_with_logits损失。

这回答了您提出的 3 个具体问题。上面共享的功能就是所需要的。您可以忽略已弃用且不应使用的 tf.contrib 系列。

于 2021-03-15T13:41:51.983 回答