tensorflow - 使用 tf.data.dataset 为序列模型创建数据生成器

Question

我有一个包含 RGB 图像的图像数据集：img1.png、img2.png ... img250.png。我从每个图像中提取了 100 个大小为 [64,64,3] 的小块。所以，我现在有像 img1_1.png、img1_2.png ...img1_100.png、img2_1.png、img2_2.png、... img2_100.png、img3_1、......

我想使用 tf.data.dataset.from_tensor_slices 创建一个数据生成器，以将每个图像的所有补丁传递给 RNN 模型。所以，我希望生成器创建这样的输出：[batch_size, 100, 64, 64, 3]

我怎样才能做到这一点？

score 1 · Accepted Answer

代码：

# generating data
x = tf.constant(np.random.randint(256, size =(250,64, 64, 3)), dtype = tf.int32)

# Creating a dataset with sequence length
dataset = tf.data.Dataset.from_tensor_slices(x).batch(100, drop_remainder= True)
for i in dataset:
    print(i.shape)

输出：

(100, 64, 64, 3)
(100, 64, 64, 3)

确保drop_remainders = True

最后，创建所需长度的批量大小。

# creating dataset with batch_size
dataset = dataset.batch(32)
for i in dataset:
    print(i.shape)

输出：

(2, 100, 64, 64, 3)

如果您的数据大小为 (250,100,64, 64, 3)：

dataset = tf.data.Dataset.from_tensor_slices(x).batch(32)
for i in dataset:
    print(i.shape)

输出：

(32, 100, 64, 64, 3)
(32, 100, 64, 64, 3)
(32, 100, 64, 64, 3)
(32, 100, 64, 64, 3)
(32, 100, 64, 64, 3)
(32, 100, 64, 64, 3)
(32, 100, 64, 64, 3)
(26, 100, 64, 64, 3)

tensorflow - 使用 tf.data.dataset 为序列模型创建数据生成器

1 回答 1

Related

Reference