0

我正在玩 Kubeflow Pipelines,我想要实现的是有一个步骤(python 函数),我在其中创建一个Iteratorgenerator),我想从中创建一个TF.Dataset

Kubeflow 步骤之间的连接只允许具有原始类型的输入/输出,因此我无法将 Iterator 或 iterator-initialized-dataset 传递到下一步。

这是管道的概述

+-------------+   +-------------------+   +------------------------------+
| Data Ingest +---> Create TF.Dataset +---> Consume Tf.Dataset in Model  |
+-------------+   +-------------------+   +------------------------------+

由于我只能传递原始类型,是否有可能存储迭代器初始化数据集?

数据在谷歌存储上,大到无法放入内存,有人怎么做到这一点?

我知道这是一个宽泛的问题,但由于 Kubeflow 很新,我在任何地方都找不到任何有用的资源。

4

2 回答 2

0

您将 TF 数据集存储在哪里?

建议:在创建时将 TF 数据集存储在 GCS 中。然后使用 tf.data.TFRecordDataset 在下一个管道阶段读取您的数据。

管道中的阶段具有不同的运行时间。因此,您不能使用从一个流水线阶段到另一个流水线阶段的任何变量。

于 2020-07-10T09:59:57.370 回答
0

将“创建 TF.Dataset”和“使用 Tf.Dataset”分为两个步骤的任何具体原因?1.如何将它们合并为一个步骤?2. 通过“write Dataset to storage”/“read Dataset from storage”共享数据集?

于 2019-06-04T18:25:42.647 回答