正如这里提到的,交叉熵不是多标签分类的合适损失函数。我的问题是“这个事实也适用于使用 softmax 的交叉熵吗?”。如果是,如何与文档的这一部分匹配。
我应该提到我的问题范围在cntk。
多标签分类通常意味着“许多二元标签”。考虑到这个定义,带有 softmax 的交叉熵不适合多标签分类。您提供的第二个链接中的文档讨论的是多类问题而不是多标签问题。带有 softmax 的交叉熵适用于多类分类。对于多标签分类,一个常见的选择是使用每个标签的二进制交叉熵之和。二进制交叉熵可以用Logistic
Brainscript 或binary_cross_entropy
Python 计算。
另一方面,如果您对许多多类标签有问题,那么您可以对每个标签使用 cross_entropy_with_softmax,CNTK 将自动对所有这些损失值求和。