“google-cloud-ai”的相关标签问题

0 投票

1 回答

540 浏览

google-cloud-ml - 顶点管道：CustomPythonPackageTrainingJobRunOp 不提供 WorkerPoolSpecs

我正在尝试使用 Vertex AI 上的 Kubeflow 管道运行自定义包训练管道。我将培训代码打包在 Google Cloud Storage 中，我的管道是：

当我尝试在 Vertex AI 上运行此管道时，出现以下错误：

2021-06-21T23:48:45.937

0 投票

1 回答

181 浏览

google-cloud-platform - 跟踪 VertexAI 管道使用的资源

是否可以跟踪 VertexAI 管道运行所消耗的资源，类似于对 Dataflow 的执行方式，它显示当前正在运行多少个节点以执行管道的实时图表？

google-cloud-platform google-cloud-ai google-cloud-vertex-ai

2021-08-06T03:07:12.657

0 投票

0 回答

44 浏览

google-cloud-platform - 在 X 分钟不活动后自动关闭 Google Cloud AI Notebook

在使用 Google AI 笔记本一段时间后，我想知道是否可以将笔记本配置为在几分钟不活动后自动关闭。也欢迎任何其他在给定时间后自动关闭这些笔记本的方式。

我尝试并查看了设置，但只找到了自定义脚本作为解决方案（我不确定这是正确的解决方案）。

google-cloud-platform google-cloud-ai google-cloud-ai-platform-pipelines google-notebook

2021-08-13T07:17:51.450

0 投票

1 回答

1313 浏览

google-cloud-platform - 如何在 Vertex AI 中安排自定义训练作业的重复运行

我已将我的训练代码打包为 python 包，然后能够在 Vertex AI 上将其作为自定义训练作业运行。现在，我希望能够安排这项工作运行，比如每 2 周运行一次，然后重新训练模型。CustomJoBSpec 中的调度设置仅允许 2 个字段，“超时”和“restartJobOnWorkerRestart”，因此无法使用 CustomJobSpec 中的调度设置。我能想到的实现这一点的一种方法是使用“CustomPythonPackageTrainingJobRunOp”Google Cloud Pipeline 组件一步创建一个 Vertex AI 管道，然后安排管道以我认为合适的方式运行。是否有更好的选择来实现这一目标？

编辑：

我能够使用 Cloud Scheduler 安排自定义训练作业，但我发现在 AIPlatformClient 中使用 create_schedule_from_job_spec 方法在 Vertex AI 管道中非常易于使用。我在 gcp 中使用 Cloud Scheduler 安排自定义作业的步骤如下，链接到谷歌文档：

将目标类型设置为 HTTP
对于指定自定义作业的 url，我按照此链接获取 url
对于身份验证，在 Auth 标头下，我选择了“添加 OAauth 令牌”

您还需要在项目中拥有一个“Cloud Scheduler 服务帐户”以及“授予它的 Cloud Scheduler 服务代理角色”。虽然文档说如果您在 2019 年 3 月 19 日之后启用 Cloud Scheduler API，这应该已经自动设置，但对我来说并非如此，并且必须手动添加具有角色的服务帐户。

google-cloud-platform google-cloud-ai google-cloud-ai-platform-pipelines google-cloud-vertex-ai

2021-08-15T16:12:43.683

0 投票

1 回答

119 浏览

google-cloud-platform - 尝试在 VertexAI 管道中使用 CustomPythonPackageTrainingJobRunOp 时出错

我在 VertexAI 管道中使用谷歌云管道组件 CustomPythonPackageTrainingJobRunOp。我之前已经能够将这个包作为 CustomTrainingJob 成功运行。我可以在日志中看到多条 (11) 条错误消息，但唯一对我来说似乎有意义的是“ValueError: too many values to unpack (expected 2)”，但我无法找出解决方案。如果需要，我也可以添加所有其他错误消息。我在训练代码开始时记录了一些消息，所以我知道错误发生在训练代码执行之前。我完全坚持这一点。链接到有人在管道中使用 CustomPythonPackageTrainingJobRunOp 的示例也非常有用。下面是我试图执行的管道代码：

在 CustomPythonPackageTrainingJobRunOp 的文档中，参数“python_module”的类型似乎是“google.cloud.aiplatform.training_jobs.CustomPythonPackageTrainingJob”而不是字符串，这看起来很奇怪。但是，我尝试重新定义管道，其中我已将 CustomPythonPackageTrainingJobRunOp 中的参数 python_module 替换为 CustomPythonPackageTrainingJob 对象而不是字符串，如下所示，但仍然出现相同的错误：

编辑：

添加了我正在传递但忘记在此处添加的参数。

google-cloud-platform kubeflow-pipelines google-cloud-ai google-cloud-ai-platform-pipelines google-cloud-vertex-ai

2021-08-15T20:22:26.030

0 投票

1 回答

98 浏览

google-cloud-platform - 示例笔记本，谷歌云管道组件示例

我正在寻找带有“CustomPythonPackageTrainingJobRunOp”谷歌云管道组件的示例或教程笔记本。我一直在尝试使用它，但不断出错。

PS：我已经在这里发布了一个关于错误的问题，并且还请求了一个示例，但是再次发布了关于该示例的帖子，因为我觉得那是一个很长的帖子，并且该请求被其他代码细节所掩盖。

google-cloud-platform kubeflow-pipelines google-cloud-ai google-cloud-ai-platform-pipelines google-cloud-vertex-ai

2021-08-16T16:28:35.253

0 投票

1 回答

46 浏览

json - 在 GCP Ai 平台上进行预测

我在 GCP AI Platform 上部署了一个 tensorflow 模型。该模型预测文本是讽刺（1）还是非讽刺（0）。

一个文本（使用给定的函数“ tokenize_text ”）表示为两个张量。这可能看起来像这样：

此外

现在我想在同一个模型上但在 GCP AI 平台上做同样的事情。因此，输入（“ text ”）将被包裹在 JSON 中，因为该模型仅适用于 JSON 文件。但我收到以下错误：

TypeError：EagerTensor 类型的对象不是 JSON 可序列化的

我知道张量不能直接转换为 JSON。但是，在部署到 GCP 之前，我只使用张量进行预测。

你有什么想法/方法吗？

json tensorflow google-cloud-platform google-cloud-ai

2021-09-02T21:10:29.660

0 投票

0 回答

182 浏览

google-cloud-ml - Vertex.ai 批量预测的自定义模型

我想使用自定义训练模型在 Google Cloud 的 vertex.ai 中运行批量预测。通过设置端点，我能够找到使用自定义构建的 docker 映像进行在线预测的文档，但我似乎找不到任何关于 Dockerfile 应该用于批量预测的文档。具体来说，我的自定义代码如何获得输入以及将输出放在哪里？

我找到的文档是here，它看起来当然可以使用自定义模型，当我尝试它时没有抱怨，但最终它确实抛出了一个错误。根据文档，运行批处理作业不需要端点。

google-cloud-ml google-cloud-vertex-ai google-cloud-ai

2021-09-20T15:55:16.607

0 投票

2 回答

114 浏览

tensorflow - 操作类型未在 AI 平台上使用 BigQuery 连接器注册“IO>BigQueryClient”

我正在尝试使用 tensorflow 并行化我的模型的训练步骤ParameterServerStrategy。我与 GCPAI Platform合作创建集群并启动任务。由于我的数据集很大，我使用tensorflow-io.

我的脚本受到tensorflow bigquery reader文档和tensorflow ParameterServerStrategy 文档的启发

在本地，我的脚本运行良好，但是当我使用 AI Platform 启动它时，出现以下错误：

{"created":"@1633444428.903993309","description":"Error received from peer ipv4:10.46.92.135:2222","file":"external/com_github_grpc_grpc/src/core/lib/surface/call.cc","file_line":1056,"grpc_message":"Op type not registered \'IO>BigQueryClient\' in binary running on gke-cml-1005-141531--n1-standard-16-2-644bc3f8-7h8p. Make sure the Op and Kernel are registered in the binary running in this process. Note that if you are loading a saved graph which used ops from tf.contrib, accessing (e.g.) `tf.contrib.resampler` should be done before importing the graph, as contrib ops are lazily registered when the module is first accessed.","grpc_status":5}

这些脚本适用于 AI 平台上的假数据，并在本地使用 bigquery 连接器。我想模型的编译包括 bigquery 连接器及其在其他设备上的调用会产生错误，但我不知道如何修复它。

我读到当设备没有相同的 tensorflow 版本时会发生此错误，因此我检查了每个设备上的 tensorflow 和 tensorflow-io 版本。

张量流：2.5.0

张量流-io：0.19.1

我创建了一个类似的示例，它在 AI 平台上重现了该错误

当我创建数据集时，per_worker_dataset_fn()我可以使用 bigquery 连接器（窃听）或实时创建数据集（工作）。

AI 平台集群配置：

运行时版本：“2.5”

蟒蛇版本：“3.7”

有人得到这个问题吗？Bigquery 连接器与 AI Platform 上的 MirroredStrategy 配合得非常好。告诉我是否应该在其他地方报告该问题。

tensorflow google-cloud-ml google-cloud-ai

2021-10-05T16:35:18.063

0 投票

0 回答

141 浏览

google-cloud-platform - 得到“400 请求包含无效参数。” 来自顶点 AI 的错误

我在 Vertex AI 上上传了我的自定义模型，并将其用于自定义推理，直到上周。

但是今天当我尝试使用相同的代码进行推理时（实际上，它与官方示例代码中的代码相同），我收到了这个错误消息。

来自 grpc 的详细错误消息如下。

我已经用这个错误消息搜索了几个小时，但我找不到任何解决这个问题的提示。

我在 GCP VM 实例上运行我的代码，使用模型端点设置 API 端点和区域。Vertex AI API 最近有什么变化吗？

提前致谢。

google-cloud-platform google-cloud-ml google-cloud-vertex-ai google-cloud-ai

2021-11-08T08:10:49.390

问题标签 [google-cloud-ai]

Reference