带有 logits 损失函数的 softmax 交叉熵用于减少提供给函数的 logits 和标签之间的差异。通常,对于监督学习,标签是固定的,而 logits 是经过调整的。但是当标签来自一个可区分的来源时会发生什么,例如,另一个网络?两个网络,即“logits 网络”和“标签网络”是否都得到了后续优化器的训练,或者这个损失函数是否总是将标签视为固定的?
TLDR: tf.nn.softmax_cross_entropy_with_logits() 是否也为标签提供梯度(如果它们是可微的),还是它们总是被认为是固定的?
谢谢!