2

现在,我通过轮询作业 REST API来监控我在 Google AI Platform(以前称为 ml 引擎)上提交的作业。我不喜欢这个解决方案有几个原因:

  1. 如果状态更改之间的间隔小于监控轮询率,则通常会延迟或完全错过对状态更改的感知
  2. 大量不必要的网络流量
  3. 大量不必要的函数调用

我希望在我的培训工作完成后立即收到通知。如果有某种方法可以分配挂钩或回调以在作业状态更改时运行,那就太好了。

我还考虑直接在 AI Platform 上运行的训练任务 python 包中添加对云函数的调用。但是,我认为这些函数调用不会发生在训练作业意外关闭的情况下,例如当作业被 GCP 取消或强制结束时。

有没有更好的方法来解决这个问题?

4

4 回答 4

5

您可以使用 Stackdriver 接收器来读取日志并将其发送到 Pub/Sub。通过 Pub/Sub,您可以连接到许多其他提供者:

1. 设置 Pub/Sub 接收器

在开始之前,请确保您有权访问您想要的主题的日志发布权限。按照说明设置 Stackdriver -> Pub/Sub 接收器。您将希望使用此查询将事件限制为仅培训作业:

resource.type = "ml_job"
resource.labels.task_name = "service"

请注意,Stackdriver 可以进一步限制查询。例如,您可以通过添加诸如 = "..." 之类的条件或使用诸如"..." 之resource.labels.job_id类的过滤器限制特定事件来限制特定作业jsonPayload.message

2. 回复 Pub/Sub 消息

为了知道发生了什么变化,Pub/Sub 消息的接收者可以从 ml.googleapis.com API 查询作业状态或阅读消息的文本

从 ml.googleapis.com 读取状态

收到消息后,调用https://ml.googleapis.com/v1/<project_id>/jobs/<job_id>获取 Job 信息,将 URL 中的 [project_id] 和 [job_id] 分别替换为 Pub/Sub 消息中的 resource.label.project_id 和 resource.label.job_id 的值.

返回的 Job 对象包含一个字段state,该字段自然地告诉作业的状态。

从消息文本中读取状态

Pub/Sub 消息将包含一个字符串,说明作业发生了什么。您可能希望工作结束时的行为。在 jsonPayload.message 中查找这些字符串:

  • “作业顺利完成。”
  • “工作取消。”
  • “工作失败。”
于 2020-01-27T16:27:41.150 回答
1

正如@htappen 所说,我实现了一个 Terraform 模块。如果对你有帮助,我很高兴。但我真正的希望是谷歌更新人工智能平台具有相同的功能。

https://github.com/sfujiwara/terraform-google-ai-platform-notification

于 2021-03-29T10:09:40.023 回答
0

我认为您可以在培训作业代码的末尾以编程方式发布 PubSub 消息。像这样的东西:

from google.cloud import pubsub_v1

# publish job complete message
client = pubsub_v1.PublisherClient()
topic = client.topic_path(args.gcp_project_id, 'topic-name')
data = {
    'ACTION': 'JOB_COMPLETE',
    'SAVED_MODEL_DIR': args.job_dir
}
data_bytes = json.dumps(data).encode('utf-8')
client.publish(topic, data_bytes)

然后,您可以设置一个由相同的 pubsub 主题触发的云功能。

于 2020-06-14T04:09:29.660 回答
0

您可以通过将 LamdbaCallback 添加到 fit() 调用来解决自定义 TF 训练作业中服务缺少回调的问题。在 on_epoch 方法中,您可以在工作完成时向自己发送有关工作进度和 on_train_end 的通知。

https://www.tensorflow.org/api_docs/python/tf/keras/callbacks/LambdaCallback

于 2020-12-08T19:50:48.167 回答