我正在研究图像标记和注释问题,只是一个图像可能包含多个对象。我想训练 inception-v4 进行多标签分类。我的训练数据将是一个图像,一个长度等于类数的向量,如果图像中存在对象,则每个索引中都有 1。例如,如果我有四个类(人、汽车、树、建筑物)。如果图像包含人和汽车。那么我的向量将是 (1, 1, 0, 0)。
我需要进行哪些更改来训练 inception-v4 的标记和注释问题?
我只需要在inception-v4架构中更改输入格式并将损失函数从softmax更改为sigmoid_cross_entropy_with_logits吗?
https://github.com/tensorflow/models/blob/master/slim/nets/inception_v4.py
先感谢您。