computer-vision - 了解 Yolo v1 研究论文中的损失函数

Question

我无法理解 YOLO v1 研究论文中的以下一段文字：

“我们使用平方和误差是因为它很容易优化，但它与我们最大化平均精度的目标并不完全一致。它对定位误差和分类误差进行同等加权，这可能并不理想。此外，在每张图像中都有许多网格单元不包含任何对象。这将这些单元格的“置信度”分数推向零，通常会压倒包含对象的单元格的梯度。这可能导致模型不稳定，导致训练早期发散。为了解决这个问题，我们增加边界框坐标预测的损失并减少不包含对象的框的置信度预测损失。我们使用两个参数 lambda(coord) 和 lambda(noobj) 来完成此操作。我们设置 lambda(coord) = 5 和λ(noobj) = .5"

第一段中“压倒性”的含义是什么？为什么我们要减少置信度预测的损失（它不能已经很低，尤其是对于不包含任何对象的框）并增加边界框预测的损失？

score 2 · Accepted Answer

有些单元格包含对象，有些则不包含。模型通常对网格单元中对象的缺失（置信度为零）非常有信心，它使这些单元格的梯度远大于包含对象但没有很大置信度的单元格的梯度，它压倒了它们（即大约0.7-0.8)。所以我们要考虑分类分数不太重要，因为它们不是很“公平”，为了实现这一点，我们使坐标预测的权重大于分类。

computer-vision - 了解 Yolo v1 研究论文中的损失函数

1 回答 1

Related

Reference