7

我目前的理解是:

不同的 map_func:两者都 interleave期望flat_map“将数据集元素映射到数据集的函数。相反,map期望“将数据集元素映射到另一个数据集元素的函数”。

参数:两者都interleave提供map参数 num_parallel_calls,而flat_map没有。此外,interleave 提供了这些神奇的参数 block_length 和 cycle_length。对于 cycle_length=1,文档说明 interleave 和 flat_map 的输出是相等的。

最后,我看到了没有 interleave 的数据加载管道以及带有 interleave 的数据加载管道。任何建议何时使用interleavevs.mapflat_map将不胜感激


//编辑:我确实看到交错的价值,如果我们从不同的数据集开始,例如在下面的代码中

  files = tf.data.Dataset.list_files("/path/to/dataset/train-*.tfrecord")
  dataset = files.interleave(tf.data.TFRecordDataset)

但是,在以下场景中使用interleaveover有什么好处吗?map

files = tf.data.Dataset.list_files("/path/to/dataset/train-*.png")
dataset = files.map(load_img, num_parallel_calls=tf.data.AUTOTUNE)
4

1 回答 1

9

编辑:

map 不能也用于并行化 I/O 吗?

实际上,您可以从具有map功能的目录中读取图像和标签。假设这种情况:

list_ds = tf.data.Dataset.list_files(my_path)

def process_path(path):
 ### get label here etc. Images need to be decoded
 return tf.io.read_file(path), label

new_ds = list_ds.map(process_path,num_parallel_calls=tf.data.experimental.AUTOTUNE)

请注意,现在它num_parallel_calls已设置为多线程。

功能优势interlave()

  • 假设你有一个数据集
  • 你可以从cycle_length数据集中取出这么多元素,即 5 个,然后从数据集中取出 5 个元素,并且map_func可以应用 a。
  • block_length之后,每次从新生成的对象中获取数据集对象,数据片段。

换句话说,interleave()函数 c在应用a时会遍历您的数据集map_func()。此外,它可以同时处理许多数据集或数据文件。例如,来自文档

  dataset = dataset.interleave(lambda x:
    tf.data.TextLineDataset(x).map(parse_fn, num_parallel_calls=1),
    cycle_length=4, block_length=16)

但是,在如下场景中使用 interleave over map 有什么好处?

两者interleave()map()看起来有点相似,但它们的用例不一样。如果你想在应用一些映射的同时读取数据集interleave()是你的超级英雄。您的图像可能需要在读取时进行解码。首先读取所有内容,在处理大型数据集时解码可能效率低下。在您提供的代码片段中,AFAIKtf.data.TFRecordDataset应该更快。

TL;DR 通过交错I/O 操作来读取文件来interleave()并行化数据加载步骤。

map()将对数据集的内容应用数据预处理。

因此,您可以执行以下操作:

ds = train_file.interleave(lambda x: tf.data.Dataset.list_files(directory_here).map(func,
                            num_parallel_calls=tf.data.experimental.AUTOTUNE)

tf.data.experimental.AUTOTUNE将决定缓冲区大小、CPU 能力以及 I/O 操作的并行级别。换句话说,AUTOTUNE将在运行时动态处理关卡。

num_parallel_calls参数产生多个线程以利用多个内核来并行化任务。有了这个,您可以并行加载多个数据集,减少等待文件打开的时间;asinterleave也可以带参数num_parallel_calls。图片取自docs

在此处输入图像描述

在图像中,有 4 个重叠的数据集,由参数 确定cycle_length,因此在本例cycle_length = 4中。


FLAT_MAP:跨数据集映射函数并将结果展平。如果您想确保订单保持不变,您可以使用它。它不num_parallel_calls作为一个论点。请参阅文档以获取更多信息。

MAP:map函数将分别对数据集的每个元素执行选定的函数。显然,随着您应用越来越多的操作,大型数据集上的数据转换可能会很昂贵。关键是,如果没有充分利用 CPU,它可能会更耗时。但我们可以使用parallelism APIs

num_of_cores = multiprocessing.cpu_count() # num of available cpu cores
mapped_data = data.map(function, num_parallel_calls = num_of_cores)

对于 cycle_length=1,文档说明 interleave 和 flat_map 的输出是相等的

cycle_length--> 将同时处理的输入元素的数量。设置为 时1,会一一处理。

INTERLEAVE:像map这样的转换操作可以并行化。

借助 map 的并行性,在顶部,CPU 试图在转换中实现并行化,但是从磁盘中提取数据会导致开销。

此外,一旦将原始字节读入内存,可能还需要将函数映射到数据,这当然需要额外的计算。像解密数据等。需要并行化各种数据提取开销的影响,以便通过交错每个数据集的内容来减轻这种影响。

因此,在读取数据集时,您希望最大化: 在此处输入图像描述

图片来源:deeplearning.ai

于 2021-03-24T11:14:16.593 回答