问题标签 [google-cloud-ai]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
540 浏览

google-cloud-ml - 顶点管道:CustomPythonPackageTrainingJobRunOp 不提供 WorkerPoolSpecs

我正在尝试使用 Vertex AI 上的 Kubeflow 管道运行自定义包训练管道。我将培训代码打包在 Google Cloud Storage 中,我的管道是:

当我尝试在 Vertex AI 上运行此管道时,出现以下错误:

0 投票
1 回答
181 浏览

google-cloud-platform - 跟踪 VertexAI 管道使用的资源

是否可以跟踪 VertexAI 管道运行所消耗的资源,类似于对 Dataflow 的执行方式,它显示当前正在运行多少个节点以执行管道的实时图表?

0 投票
0 回答
44 浏览

google-cloud-platform - 在 X 分钟不活动后自动关闭 Google Cloud AI Notebook

在使用 Google AI 笔记本一段时间后,我想知道是否可以将笔记本配置为在几分钟不活动后自动关闭。也欢迎任何其他在给定时间后自动关闭这些笔记本的方式。

我尝试并查看了设置,但只找到了自定义脚本作为解决方案(我不确定这是正确的解决方案)。

0 投票
1 回答
1313 浏览

google-cloud-platform - 如何在 Vertex AI 中安排自定义训练作业的重复运行

我已将我的训练代码打包为 python 包,然后能够在 Vertex AI 上将其作为自定义训练作业运行。现在,我希望能够安排这项工作运行,比如每 2 周运行一次,然后重新训练模型。CustomJoBSpec 中的调度设置仅允许 2 个字段,“超时”和“restartJobOnWorkerRestart”,因此无法使用 CustomJobSpec 中的调度设置。我能想到的实现这一点的一种方法是使用“CustomPythonPackageTrainingJobRunOp”Google Cloud Pipeline 组件一步创建一个 Vertex AI 管道,然后安排管道以我认为合适的方式运行。是否有更好的选择来实现这一目标?

编辑:

我能够使用 Cloud Scheduler 安排自定义训练作业,但我发现在 AIPlatformClient 中使用 create_schedule_from_job_spec 方法在 Vertex AI 管道中非常易于使用。我在 gcp 中使用 Cloud Scheduler 安排自定义作业的步骤如下,链接到谷歌文档:

  1. 将目标类型设置为 HTTP
  2. 对于指定自定义作业的 url,我按照链接获取 url
  3. 对于身份验证,在 Auth 标头下,我选择了“添加 OAauth 令牌”

您还需要在项目中拥有一个“Cloud Scheduler 服务帐户”以及“授予它的 Cloud Scheduler 服务代理角色”。虽然文档说如果您在 2019 年 3 月 19 日之后启用 Cloud Scheduler API,这应该已经自动设置,但对我来说并非如此,并且必须手动添加具有角色的服务帐户。

0 投票
1 回答
119 浏览

google-cloud-platform - 尝试在 VertexAI 管道中使用 CustomPythonPackageTrainingJobRunOp 时出错

我在 VertexAI 管道中使用谷歌云管道组件 CustomPythonPackageTrainingJobRunOp。我之前已经能够将这个包作为 CustomTrainingJob 成功运行。我可以在日志中看到多条 (11) 条错误消息,但唯一对我来说似乎有意义的是“ValueError: too many values to unpack (expected 2)”,但我无法找出解决方案。如果需要,我也可以添加所有其他错误消息。我在训练代码开始时记录了一些消息,所以我知道错误发生在训练代码执行之前。我完全坚持这一点。链接到有人在管道中使用 CustomPythonPackageTrainingJobRunOp 的示例也非常有用。下面是我试图执行的管道代码:

在 CustomPythonPackageTrainingJobRunOp 的文档中,参数“python_module”的类型似乎是“google.cloud.aiplatform.training_jobs.CustomPythonPackageTrainingJob”而不是字符串,这看起来很奇怪。但是,我尝试重新定义管道,其中我已将 CustomPythonPackageTrainingJobRunOp 中的参数 python_module 替换为 CustomPythonPackageTrainingJob 对象而不是字符串,如下所示,但仍然出现相同的错误:

编辑:

添加了我正在传递但忘记在此处添加的参数。

0 投票
1 回答
98 浏览

google-cloud-platform - 示例笔记本,谷歌云管道组件示例

我正在寻找带有“CustomPythonPackageTrainingJobRunOp”谷歌云管道组件的示例或教程笔记本。我一直在尝试使用它,但不断出错。

PS:我已经在这里发布了一个关于错误的问题,并且还请求了一个示例,但是再次发布了关于该示例的帖子,因为我觉得那是一个很长的帖子,并且该请求被其他代码细节所掩盖。

0 投票
1 回答
46 浏览

json - 在 GCP Ai 平台上进行预测

我在 GCP AI Platform 上部署了一个 tensorflow 模型。该模型预测文本是讽刺(1)还是非讽刺(0)。

一个文本(使用给定的函数“ tokenize_text ”)表示为两个张量。这可能看起来像这样:

此外

现在我想在同一个模型上但在 GCP AI 平台上做同样的事情。因此,输入(“ text ”)将被包裹在 JSON 中,因为该模型仅适用于 JSON 文件。但我收到以下错误:

TypeError:EagerTensor 类型的对象不是 JSON 可序列化的

我知道张量不能直接转换为 JSON。但是,在部署到 GCP 之前,我只使用张量进行预测。

你有什么想法/方法吗?

0 投票
0 回答
182 浏览

google-cloud-ml - Vertex.ai 批量预测的自定义模型

我想使用自定义训练模型在 Google Cloud 的 vertex.ai 中运行批量预测。通过设置端点,我能够找到使用自定义构建的 docker 映像进行在线预测的文档,但我似乎找不到任何关于 Dockerfile 应该用于批量预测的文档。具体来说,我的自定义代码如何获得输入以及将输出放在哪里?

我找到的文档是here,它看起来当然可以使用自定义模型,当我尝试它时没有抱怨,但最终它确实抛出了一个错误。根据文档,运行批处理作业不需要端点。

0 投票
2 回答
114 浏览

tensorflow - 操作类型未在 AI 平台上使用 BigQuery 连接器注册“IO>BigQueryClient”

我正在尝试使用 tensorflow 并行化我的模型的训练步骤ParameterServerStrategy。我与 GCPAI Platform合作创建集群并启动任务。由于我的数据集很大,我使用tensorflow-io.

我的脚本受到tensorflow bigquery reader文档和tensorflow ParameterServerStrategy 文档的启发

在本地,我的脚本运行良好,但是当我使用 AI Platform 启动它时,出现以下错误:

{"created":"@1633444428.903993309","description":"Error received from peer ipv4:10.46.92.135:2222","file":"external/com_github_grpc_grpc/src/core/lib/surface/call.cc","file_line":1056,"grpc_message":"Op type not registered \'IO>BigQueryClient\' in binary running on gke-cml-1005-141531--n1-standard-16-2-644bc3f8-7h8p. Make sure the Op and Kernel are registered in the binary running in this process. Note that if you are loading a saved graph which used ops from tf.contrib, accessing (e.g.) `tf.contrib.resampler` should be done before importing the graph, as contrib ops are lazily registered when the module is first accessed.","grpc_status":5}

这些脚本适用于 AI 平台上的假数据,并在本地使用 bigquery 连接器。我想模型的编译包括 bigquery 连接器及其在其他设备上的调用会产生错误,但我不知道如何修复它。

我读到当设备没有相同的 tensorflow 版本时会发生此错误,因此我检查了每个设备上的 tensorflow 和 tensorflow-io 版本。

张量流:2.5.0

张量流-io:0.19.1

我创建了一个类似的示例,它在 AI 平台上重现了该错误

当我创建数据集时,per_worker_dataset_fn()我可以使用 bigquery 连接器(窃听)或实时创建数据集(工作)。

AI 平台集群配置:

运行时版本:“2.5”

蟒蛇版本:“3.7”

有人得到这个问题吗?Bigquery 连接器与 AI Platform 上的 MirroredStrategy 配合得非常好。告诉我是否应该在其他地方报告该问题。

0 投票
0 回答
141 浏览

google-cloud-platform - 得到“400 请求包含无效参数。” 来自顶点 AI 的错误

我在 Vertex AI 上上传了我的自定义模型,并将其用于自定义推理,直到上周。

但是今天当我尝试使用相同的代码进行推理时(实际上,它与官方示例代码中的代码相同),我收到了这个错误消息。

来自 grpc 的详细错误消息如下。

我已经用这个错误消息搜索了几个小时,但我找不到任何解决这个问题的提示。

我在 GCP VM 实例上运行我的代码,使用模型端点设置 API 端点和区域。Vertex AI API 最近有什么变化吗?

提前致谢。