我已经使用 AI Platform Pipelines (v0.2.5) 好几个月了。我重建了 Pipelines 实例,因为我在控制台上找到了更新的版本 (v0.5.1)。我现在正忙于完成管道。
这很奇怪,因为似乎没有失败模式。
- Pods(Components) 随机失败。大多数 pod 成功完成,而有些失败。此外,失败的 pod 因执行时间而异。
- Pods 随机告诉我下面两个的错误消息。
google.auth.exceptions.DefaultCredentialsError: Could not automatically determine credentials.
Please set GOOGLE_APPLICATION_CREDENTIALS or explicitly create credentials and re-run the application.
For more information, please see https://cloud.google.com/docs/authentication/getting-started
- 文件“”,第 3 行,在 raise_from google.auth.exceptions.RefreshError中:(“无法从Google Compute Engine 元数据服务。状态:500 响应:\nb'Could not recurdively fetch uri\n'", <google.auth.transport.requests._Response object at 0x7fe5729c9650>)
在 GKE 集群工作负载标识已设置。我肯定确认了程序并且设置没有问题。尽管某些 pod 失败,但其他 pod 使用 Workload Identity 成功运行。当然,Google Cloud Credentials API 已启用。
我不知道这些问题是由更新 Pipelines 实例引起的。
有任何想法吗?