我有两个关于如何加载 Imagenet 数据的问题。我下载了 ILSVRC2012 验证集(因为训练集太大)但我有两个问题。
我不明白我怎样才能找到标签。只有 jpeg 文件的文件名为“
ILSVRC2012_val_00000001.JPEG
”,但没有标签。我怎样才能找到它们?据我所知,Imagenet 使用 224 * 224 像素的图像,问题只是“分类”而不是“检测”,但 ILSVRC2012 集有更多不同的像素大小。那么,我怎样才能获得 224 * 224 像素的正确框?
我有两个关于如何加载 Imagenet 数据的问题。我下载了 ILSVRC2012 验证集(因为训练集太大)但我有两个问题。
我不明白我怎样才能找到标签。只有 jpeg 文件的文件名为“ ILSVRC2012_val_00000001.JPEG
”,但没有标签。我怎样才能找到它们?
据我所知,Imagenet 使用 224 * 224 像素的图像,问题只是“分类”而不是“检测”,但 ILSVRC2012 集有更多不同的像素大小。那么,我怎样才能获得 224 * 224 像素的正确框?
您将下载三个 tar 存档:一个用于训练数据,一个用于验证数据,一个用于测试数据。
训练数据包含在 1000 个文件夹中,每个类一个文件夹(每个文件夹应包含 1300 张 JPEG 图像)。验证数据是一个包含 50k 图像的单个文件夹,在中JPEG
查找相应的ILSVRC2012_validation_ground_truth.txt
文件(如 darren1231 所述,它需要作为 DevKit 的一部分单独下载)。
测试数据类似于验证数据,但它没有标签(标签没有提供给您,因为您需要将预测的标签提交给他们,作为比赛的一部分)。
它在开发工具包中(任务 1 和 2)文件名为“ILSVRC2012_validation_ground_truth.txt”
确保从这里下载并将每个文件 .tar 解压到一个文件夹中,其中synsent
包含每个类的数量。这是您不混合图片的最佳方式。
我在我的文件夹中找到了这个:imageNet/imagenet-object-localization-challenge/ILSVRC/Annotations/CLS-LOC/val
(这是类名:n01751748)
<annotation>
<folder>val</folder>
<filename>ILSVRC2012_val_00000001</filename>
<source>
<database>ILSVRC_2012</database>
</source>
<size>
<width>500</width>
<height>375</height>
<depth>3</depth>
</size>
<segmented>0</segmented>
<object>
<name>n01751748</name>
<pose>Unspecified</pose>
<truncated>0</truncated>
<difficult>0</difficult>
<bndbox>
<xmin>111</xmin>
<ymin>108</ymin>
<xmax>441</xmax>
<ymax>193</ymax>
</bndbox>
</object>
</annotation>