deep-learning - 使用 Caffe 进行多标签分类

Question

我想微调 GoogLeNet 以使用 Caffe 进行多标签分类。我已经将它微调为单标签分类，但我还不能过渡到多标签。

我正在做的主要步骤是不同的：

为数据和基本事实创建 LMDB

我在这里和这里修改代码以创建一个带有数据的 LMDB 和另一个带有基本事实的 LMDB。

用 SigmoidCrossEntropyLoss 替换 SoftmaxWithLoss

更新 train_val.prototxt，我将 SoftmaxWithLoss 层替换为 SigmoidCrossEntropyLoss，并设置数据层以便加载两个 DB。我像处理单标签分类问题一样设置学习率参数。

这个步骤似乎奏效了。数据流，可以执行solver.step(1)。为了验证数据和标签是否正确加载，我使用公式明确计算了损失，并得到了与 Caffe 相同的结果。

问题

网络不收敛。运行它数百次迭代，每个不同的类平均围绕类人口。也就是说，如果 a 类在总体中有 0.35 个 1 和 0.65 个 0，那么无论真实标签如何，网络对于每个观察值都会收敛到 ~0.35 的分类概率。

可能的错误 1

我怀疑问题是因为我未能以 GoogLeNet 预训练模型可以从中学习的方式将图像正确加载到 caffe 中。到目前为止，我以前的经验是 convert_imageset，它工作得很好。现在我正在使用 shelhamer 代码将图像保存到 LMDB 中：

im = np.array(Image.open(os.path.join(data_dir,in_)))
im = im[:,:,::-1]
im = im.transpose((2,0,1))
im_dat = caffe.io.array_to_datum(im)
in_txn.put('{:0>10d}'.format(in_idx), im_dat.SerializeToString())

加载图像时，我将数据层中的平均值标准化。这看起来对吗？还有另一种方法吗？

可能的错误 2

也可能是 train_val.prototxt 定义错误。除了切换 SoftmaxWithLoss -> SigmoidCrossEntropyLoss，还有什么需要做的吗？

任何帮助将不胜感激！谢谢！

score 0 · Accepted Answer

在 GoogLeNet 中，输入数据应减去均值：

...
im = im.transpose((2,0,1))
mean = np.array((104,117,123))
im -= mean
im_dat = caffe.io.array_to_datum(im)
...

deep-learning - 使用 Caffe 进行多标签分类

为数据和基本事实创建 LMDB

用 SigmoidCrossEntropyLoss 替换 SoftmaxWithLoss

问题

可能的错误 1

可能的错误 2

1 回答 1

Related

Reference