python - 如何使用 DataSet API 在 Tensorflow 中为 tf.train.SequenceExample 数据创建填充批次？

Question

为了在Tensorflow中训练LSTM 模型，我将数据结构化为tf.train.SequenceExample格式，并将其存储到TFRecord 文件中。我现在想使用新的 DataSet API 来生成填充批次进行训练。在文档中有一个使用 padded_batch 的示例，但是对于我的数据，我无法弄清楚padded_shapes的值应该是什么。

为了将 TFrecord 文件分批读取，我编写了以下 Python 代码：

import math
import tensorflow as tf
import numpy as np
import struct
import sys
import array

if(len(sys.argv) != 2):
  print "Usage: createbatches.py [RFRecord file]"
  sys.exit(0)


vectorSize = 40
inFile = sys.argv[1]

def parse_function_dataset(example_proto):
  sequence_features = {
      'inputs': tf.FixedLenSequenceFeature(shape=[vectorSize],
                                           dtype=tf.float32),
      'labels': tf.FixedLenSequenceFeature(shape=[],
                                           dtype=tf.int64)}

  _, sequence = tf.parse_single_sequence_example(example_proto, sequence_features=sequence_features)

  length = tf.shape(sequence['inputs'])[0]
  return sequence['inputs'], sequence['labels']

sess = tf.InteractiveSession()

filenames = tf.placeholder(tf.string, shape=[None])
dataset = tf.contrib.data.TFRecordDataset(filenames)
dataset = dataset.map(parse_function_dataset)
# dataset = dataset.batch(1)
dataset = dataset.padded_batch(4, padded_shapes=[None])
iterator = dataset.make_initializable_iterator()

batch = iterator.get_next()

# Initialize `iterator` with training data.
training_filenames = [inFile]
sess.run(iterator.initializer, feed_dict={filenames: training_filenames})

print(sess.run(batch))

如果我使用该代码效果很好dataset = dataset.batch(1)（在这种情况下不需要填充），但是当我使用该padded_batch变体时，我收到以下错误：

TypeError：如果浅结构是一个序列，输入也必须是一个序列。输入具有类型：。

你能帮我弄清楚我应该为padded_shapes参数传递什么吗？

（我知道有很多使用线程和队列的示例代码，但我宁愿为这个项目使用新的 DataSet API）

score 14 · Accepted Answer

您需要传递一组形状。在你的情况下，你应该通过

dataset = dataset.padded_batch(4, padded_shapes=([vectorSize],[None]))

或尝试

dataset = dataset.padded_batch(4, padded_shapes=([None],[None]))

检查此代码以获取更多详细信息。我不得不调试这个方法来弄清楚为什么它对我不起作用。

score 3 · Accepted Answer

如果您当前的Dataset对象包含一个元组，您还可以指定每个填充元素的形状。

例如，我有一个(same_sized_images, Labels)数据集，每个标签的长度不同但排名相同。

def process_label(resized_img, label):
    # Perfrom some tensor transformations
    # ......

    return resized_img, label

dataset = dataset.map(process_label)
dataset = dataset.padded_batch(batch_size, 
                               padded_shapes=([None, None, 3], 
                                              [None, None]))  # my label has rank 2

score 1 · Accepted Answer

1

您可能需要从数据集输出形状中获得帮助：

padded_shapes = dataset.output_shapes

于 2020-03-09T19:26:03.017 回答

score 0 · Accepted Answer

注意不要传递元组的元组。这给出了一个非常模糊的错误“无法将值 None 转换为类型 Nonetype”。

如此正确： padded_shapes = ([None, None], [None])

不正确： padded_shapes = ((None, None), (None))

python - 如何使用 DataSet API 在 Tensorflow 中为 tf.train.SequenceExample 数据创建填充批次？

4 回答 4

Related

Reference