2

我在 GCS 中存储了 1TB 的图像(数据分为 3 个类)。我想在 Kubeflow 中根据这些数据训练自定义张量流模型。目前,我有用于训练和持久化模型的管道组件,但我不知道如何正确地将这些数据输入分类器。

在我看来,每次我运行(可能失败)时,管道都不是执行此操作的正确方法,而是从 GCS(gsutil cp / 其他)下载这些数据。

如何在 Kubeflow 管道中使用大量数据而无需每次都下载?如何使用 Kubeflow DSL 表达对这些数据的访问?

4

2 回答 2

2

此外,如果您的数据GCS 中,则 TensorFlow 支持访问(和写入)GCS 中的数据的能力。tf.data api允许您设置高性能数据输入管道。

于 2019-04-12T18:18:05.340 回答
0

您可以在主机上安装卷吗?

如果是,则将卷挂载到主机上,然后将此目录挂载到容器,因为hostPath映像已经挂载到节点,并且每当新容器启动时,它可以将卷挂载到容器并启动该过程,避免在每次容器启动时传输数据。

于 2019-04-12T16:00:02.180 回答