2

我有一个 GCP ML 管道,一旦将 .csv 文件存储到 Cloud Bucket 中,我需要对 .csv 进行预处理(主要是pandas操作),然后将其传递给 Google Cloud AI Platform 进行训练。

如果我在 AI Platform 中进行此预处理(包含预处理和模型训练的单个训练作业),这将花费大量时间,不知道为什么,日志没有为这个时间延迟指定任何内容,但是训练部分在ai平台中相当快。

我们不应该在 AI Platform/ML Engine 中进行数据预处理吗?

我尝试使用 Cloud Function 进行预处理,但它在 540 秒内超时,这对我们来说是一个瓶颈。此外,我不确定 Cloud Dataflow 是否最适合此用例。

基本上我需要python pandas在将数据传递给 AI Platform 之前进行一些预处理。您能否推荐任何相同的 GCP 产品?

我知道我们可以创建一个 GCE 实例并在那里做所有事情,但我们不想使用任何 IaaS 服务,而是更多来自 GCP 的 PaaS 用于以后扩展。

4

0 回答 0