16

我有两个关于如何加载 Imagenet 数据的问题。我下载了 ILSVRC2012 验证集(因为训练集太大)但我有两个问题。

  1. 我不明白我怎样才能找到标签。只有 jpeg 文件的文件名为“ ILSVRC2012_val_00000001.JPEG”,但没有标签。我怎样才能找到它们?

  2. 据我所知,Imagenet 使用 224 * 224 像素的图像,问题只是“分类”而不是“检测”,但 ILSVRC2012 集有更多不同的像素大小。那么,我怎样才能获得 224 * 224 像素的正确框?

4

4 回答 4

11
  1. 您将下载三个 tar 存档:一个用于训练数据,一个用于验证数据,一个用于测试数据。

    训练数据包含在 1000 个文件夹中,每个类一个文件夹(每个文件夹应包含 1300 张 JPEG 图像)。验证数据是一个包含 50k 图像的单个文件夹,在中JPEG查找相应的ILSVRC2012_validation_ground_truth.txt文件(如 darren1231 所述,它需要作为 DevKit 的一部分单独下载)。

测试数据类似于验证数据,但它没有标签(标签没有提供给您,因为您需要将预测的标签提交给他们,作为比赛的一部分)。

  1. ImageNet 图像具有可变分辨率,平均为 482x415,您可以自行决定如何处理它们以训练模型。大多数人处理它如下:首先缩小每个图像,使其短边为256像素。然后裁剪一个随机的 224x224 补丁。使用这些补丁进行训练(每个时期你会得到不同的作物)。在测试期间,做同样的事情,但提取一个中心 224x224 补丁,并使用它来评估分类准确度。有些人还使用多个补丁进行测试。同样,这取决于您,如果您愿意,您可以使用更高的分辨率。
于 2018-01-08T18:29:53.193 回答
1

它在开发工具包中(任务 1 和 2)文件名为“ILSVRC2012_validation_ground_truth.txt”

于 2017-11-02T02:41:36.897 回答
0

确保从这里下载并将每个文件 .tar 解压到一个文件夹中,其中synsent包含每个类的数量。这是您不混合图片的最佳方式。

于 2017-07-25T00:33:41.447 回答
0

我在我的文件夹中找到了这个:imageNet/imagenet-object-localization-challenge/ILSVRC/Annotations/CLS-LOC/val

(这是类名:n01751748)

<annotation>
    <folder>val</folder>
    <filename>ILSVRC2012_val_00000001</filename>
    <source>
        <database>ILSVRC_2012</database>
    </source>
    <size>
        <width>500</width>
        <height>375</height>
        <depth>3</depth>
    </size>
    <segmented>0</segmented>
    <object>
        <name>n01751748</name>
        <pose>Unspecified</pose>
        <truncated>0</truncated>
        <difficult>0</difficult>
        <bndbox>
            <xmin>111</xmin>
            <ymin>108</ymin>
            <xmax>441</xmax>
            <ymax>193</ymax>
        </bndbox>
    </object>
</annotation>

于 2022-02-25T15:13:58.847 回答