我为多标签分类构建了一个 CNN,即预测每个图像的多个标签。
我注意到 ImageNet 和许多其他数据集实际上每个标签都包含一组示例。他们构造数据的方式是,给定一个标签,有一个该标签的示例列表。即:标签 -> 图像列表。此外,我正在使用的 Keras 支持每个标签的文件夹的数据结构,并且在每个文件夹中都有一个图像列表作为标签的示例。
我担心的问题是许多图像实际上可能有多个标签。例如,如果我对一般对象进行分类,名为“汽车”的单个文件夹将包含汽车图像,但某些汽车图像中也会包含人(并且可能会妨碍“人”类的结果)。
我的第一个问题:1)这(即地面实况中每个图像的单个标签)会降低网络的潜在准确性吗?
如果是这种情况,我想改为创建以下形式的数据集: image1,{list of its labels} image2,{list of its labels} 等
2)这样的结构会产生更好的结果吗?
3)关于这方面的一篇好的学术论文是什么?