8

我正在训练一个线性回归模型。我使用 tf.contrib.data 来准备数据集,将其打乱并分批提供:

  dataset = tf.contrib.data.TFRecordDataset(filename)
  dataset = dataset.map(
      _parse_function, num_threads=16, output_buffer_size=100 * batch_size)
  dataset = dataset.repeat(5)
  dataset = dataset.shuffle(buffer_size=100000)
  dataset = dataset.padded_batch(batch_size, padded_shapes=([None], [None]))
  iterator = dataset.make_initializable_iterator()
  x_inputs, y_ = iterator.get_next()

以下是我们的训练损失: 训练损失

非常奇怪的是,在每个 epoch(迭代 = 100k)开始时,我们在训练损失中都有一个脉冲。如果训练过程继续进行,我们会在接下来的 epoch 开始时看到相同的模式。

4

2 回答 2

3

在这里可以看到相同的锯齿模式:https ://discuss.pytorch.org/t/strange-behavior-with-sgd-momentum-training/7442

建议的解决方案是确保您的数据加载器加载带有替换的数据。

于 2018-12-19T13:48:01.523 回答
3

假设您的数据集的记录少于 100000 条,则问题可能是输入 shuffle 中的随机性不足。直观地说,如果现有数据没有被打乱并且在它们的顺序中有一些结构,那么训练过程可能会过度拟合到文件末尾的记录,当你从头开始重新启动时,模型在记录上的表现就不会那么好了靠近文件的开头,损失会增加。

正确的解决方案将取决于数据集的精确细节,但以下一些方法可能有用:

  1. 如果可能,将buffer_size传递给Dataset.shuffle()的数据集增加到与数据集一样大。(如果您的整个数据集不适合内存,这可能是不可能的。)

  2. 通过在训练前随机化输入文件的顺序,确保数据在记录的顺序上没有任何结构。

  3. 除了随机化文件中的顺序之外,您还可以将数据划分为几个不同的文件,并使用以下命令随机化您访问这些文件的顺序:

    dataset = tf.data.Dataset.list_files(shard_filenames)
    dataset = dataset.shuffle(len(shard_filenames))
    dataset = dataset.flat_map(lambda filename: tf.data.TFRecordDataset(filename))
    # ...
    
  4. 作为 (3) 的扩展,您可以使用Dataset.interleave()代替Dataset.flat_map()一次读取多个分片。

于 2017-12-04T22:12:58.610 回答