python - Kubeflow Pipeline - 存储（传递）TF.Dataset

Question

我正在玩 Kubeflow Pipelines，我想要实现的是有一个步骤（python 函数），我在其中创建一个Iterator（generator），我想从中创建一个TF.Dataset

Kubeflow 步骤之间的连接只允许具有原始类型的输入/输出，因此我无法将 Iterator 或 iterator-initialized-dataset 传递到下一步。

这是管道的概述

+-------------+   +-------------------+   +------------------------------+
| Data Ingest +---> Create TF.Dataset +---> Consume Tf.Dataset in Model  |
+-------------+   +-------------------+   +------------------------------+

由于我只能传递原始类型，是否有可能存储迭代器初始化数据集？

数据在谷歌存储上，大到无法放入内存，有人怎么做到这一点？

我知道这是一个宽泛的问题，但由于 Kubeflow 很新，我在任何地方都找不到任何有用的资源。

score 0 · Accepted Answer

您将 TF 数据集存储在哪里？

建议：在创建时将 TF 数据集存储在 GCS 中。然后使用 tf.data.TFRecordDataset 在下一个管道阶段读取您的数据。

管道中的阶段具有不同的运行时间。因此，您不能使用从一个流水线阶段到另一个流水线阶段的任何变量。

score 0 · Accepted Answer

将“创建 TF.Dataset”和“使用 Tf.Dataset”分为两个步骤的任何具体原因？1.如何将它们合并为一个步骤？2. 通过“write Dataset to storage”/“read Dataset from storage”共享数据集？

python - Kubeflow Pipeline - 存储（传递）TF.Dataset

2 回答 2

Related

Reference