1

我已经下载了 Imagenet2011 数据集,并尝试使用此处的说明在其上训练Caffe imagenet 网络。我使用大约 500K 图像进行训练,使用 70K 图像进行验证。

我还下载了 ILSVRC 2012 验证集进行实验。

结果如下:

在 ILSVRC 2012 官方验证集上: 我的网络:46% 准确度,原始 Caffe Imagenet 网络:56% 准确度。

在我的验证集上:我的网络:53% 准确率,原始 Caffe Imagenet 网络:80% 准确率。

在我的训练数据上(检查过拟合):我的网络:99% 准确率,原始 Caffe Imagenet 网络:70% 准确率。

我想寻求一些有关培训的帮助和提示:

  1. 我感觉我的新网络过拟合了。你同意吗?我应该使用更多图像吗?使用数据增强来机械地增加训练集的大小?或者也许改变辍学参数?

  2. 在 Krizhevsky 等人的论文“使用深度卷积神经网络的 Imagenet 分类”中。1 它说作者使用了 120 万张图像进行训练并使用了数据增强2将训练数据的大小增加了 2048 倍。但是,在为图像网络训练。数据增强真的不需要吗?

  3. 我只对 ImageNet 数据集中的大约 100 个类感兴趣。假设我要训练 imagenet 网络(从头开始),只有 100 个类,总共 100K 图像。它比原始的 120 万张图像要少得多,但类别也少得多。网络会过拟合还是会在这 100 个类别上表现良好?还是应该只为 100 个类使用不同的网络架构?训练 Imagenet 网络然后只使用这 100 个类进行微调会更好吗?

  4. 对于最初的 1K 类别,我只有 500K 图像(而不是 1.2M)。我应该使用包含更多图像的类别吗?使用更多类别(和图像)怎么样?

提前致谢!

吉尔

1 Krizhevsky、Alex、Ilya Sutskever 和 Geoffrey E. Hinton。“使用深度卷积神经网络进行 Imagenet 分类。” 神经信息处理系统的进展。2012.‏</p>

2 “数据增强的第一种形式包括生成图像平移和水平反射。我们通过从 256x 256 图像中提取随机 224x224 补丁(及其水平反射)并在这些提取的补丁上训练我们的网络来做到这一点。这增加了大小我们的训练集的 2048 倍,尽管由此产生的训练示例当然是高度相互依赖的。”

4

0 回答 0