我正在玩 Kubeflow Pipelines,我想要实现的是有一个步骤(python 函数),我在其中创建一个Iterator
(generator
),我想从中创建一个TF.Dataset
Kubeflow 步骤之间的连接只允许具有原始类型的输入/输出,因此我无法将 Iterator 或 iterator-initialized-dataset 传递到下一步。
这是管道的概述
+-------------+ +-------------------+ +------------------------------+
| Data Ingest +---> Create TF.Dataset +---> Consume Tf.Dataset in Model |
+-------------+ +-------------------+ +------------------------------+
由于我只能传递原始类型,是否有可能存储迭代器初始化数据集?
数据在谷歌存储上,大到无法放入内存,有人怎么做到这一点?
我知道这是一个宽泛的问题,但由于 Kubeflow 很新,我在任何地方都找不到任何有用的资源。