我正在尝试评估我的视频对象检测模块,为此我正在使用 InageNet VID 数据集。在某些时候,我面临评估包含零个对象的框架的情况。这意味着这一帧中没有地面实况 bbox(这很好,因为我们正在讨论视频对象检测)。
因为,我使用的模块预计至少存在 1 个 bbox,所以我想知道 ImageNet 对这些案例的官方处理是什么。我发现这个描述显然不是详尽的,它可能会在 ImageNet 站点中提供一些观点,其中指出:
评估指标与对象检测任务相同,这意味着未注释的对象将受到惩罚,重复检测(同一对象实例的两个注释)也会受到惩罚。
(原文如此;错字来自原文)
其中没有提到上述情况。由于这是一个简单的描述,我不确定它是否涵盖了所有边缘情况。通常在单图像对象检测中这不是问题,因为评估样本总是包含一些对象。但在这种情况下,这是否意味着我应该完全忽略这些框架?
此外,检查这个关于对象检测指标的存储库(顺便说一下,这是超级分析的),no gt 案例似乎属于关于False Positive (FP)的一般情况。在这种情况下, Intersection将为 0(因为不存在 gt bbox),并且Union将只是一个等于 FP bbox 的非零数,因此,IoU = 0
.
那么,ImageNet 官方是如何处理这些情况的呢?我对这里的合理选择不感兴趣,只是官方版本。