问题标签 [google-cloud-ml-engine]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1350 浏览

tensorflow - 无法将作业重新提交到 ml-engine,因为“具有此 ID 的作业已存在”

我正在尝试向 gcloud ml-engine 提交工作。作为参考,该工作正在使用Google 提供的此示例

它第一次通过,但出现与此问题无关的错误,现在我在纠正错误后尝试重新发出命令:

, 其中$JOB_NAME= census. 不幸的是,我似乎无法继续重新提交工作,除非我将每个新工作更改$JOB_NAMEcensus2, thencensus3等。

以下是我收到的错误:

这部分设计是否无法使用相同的工作名称重新提交,或者我遗漏了什么?

0 投票
1 回答
221 浏览

google-cloud-ml - 通过 Cloud ML Engine 使用每晚的 TensorFlow 构建进行训练

如果我需要在 Cloud ML Engine 训练作业中使用每晚的 TensorFlow 构建,我该怎么做?

0 投票
1 回答
32 浏览

google-cloud-ml - cloudml-samples/flowers/sample.sh 中的 --region 与 --regions 参数

cloudml-samples/flowers/sample.sh 中的Google 示例代码中,第 66 行和第 69 行之间是参数“region”:

不应该将“区域”替换为“区域”以避免错误吗?

(我无法就此提交 PR。)

0 投票
1 回答
76 浏览

google-cloud-ml-engine - 创建包但不导出

我的工作顺利完成。日志显示我的模型的“准确度”、“auc”和其他统计量度。正如预期的那样,ML-engine 创建一个包子目录,并在其下创建一个 tar。但是,没有导出目录、检查点、评估、图表或任何其他我习惯于在本地训练时看到的工件。我用来调用服务的命令是否遗漏了一些简单的东西?

日志显示:模型目录 = /tmp/tmpS7Z2bq 但我期待我的模型转到我在 $OUTPUT_PATH 中定义的 GCS 存储桶。

我正在按照入门文档中的“在云中运行单实例培训师”下的步骤进行操作。

0 投票
1 回答
786 浏览

tensorflow - 在谷歌云训练期间,Tensorflow 无法打开 CUDA 库 libcupti.so.8.0

我正在尝试在 Google Cloud 机器学习引擎上使用 Tensorflow 训练模型。由于 LD_LIBRARY_PATH 未指向正确的目录,tensorflow 似乎无法访问云计算机上的 libcupti 文件,如下面的日志条目所示:

据我所知,libcupti 文件都在 中,所以我需要将它附加到 LD_LIBRARY_PATH 变量中,但是通过命令/usr/local/cuda/extras/CUPTI/lib64提交作业时我该怎么做呢?gcloud ml-engine jobs submit training $JOB_NAME或者也许有更简单的解决方案?

0 投票
3 回答
680 浏览

distributed-computing - 在 google cloud ML 上以分布式模式运行 tensorflow 代码

有人知道需要对培训师进行哪些更改才能在 google cloud ML 上的分布式平台上运行作业吗?

如果有人可以分享一些相同的文章或文档,那将有很大帮助。

0 投票
1 回答
140 浏览

google-app-engine - 在训练期间使用多处理或多线程时,gcloud ML-engine 长时间停止

我正在尝试在 BASIC_GPU 分层实例上的 google ml 引擎中训练计算机视觉的卷积模型,但训练以看似随机的时间间隔停止长达一个小时。从这张取自张量板的成本函数图片中可以看出。随时间绘制的成本函数

我能想到的这个问题的唯一明显原因是我使用的多线程或多处理函数(两者都会产生相同的问题,从现在开始称为并行处理)。我使用并行处理来并行获取和预处理我的图像,因为谷歌存储桶延迟约为 100 毫秒,加上一些 opencv 预处理,如果按顺序完成,每批最多可能需要 5/6 秒。并行获取通过从一个函数中派生工作人员来工作:

每当训练没有停止时,并行获取就像一种魅力,并将图像加载时间减少到大约一秒,从而大大提高了我的模型的训练速度。

更重要的是,在本地进行培训时,这些问题都没有出现。这似乎是 ML 引擎特有的错误,还是我遗漏了什么?我对机器学习引擎的限制或对这个问题的解决方案的搜索已经枯竭。

有没有人有这个问题的经验并且知道为什么它不起作用或者我可以尝试什么?这个问题是错误还是 ML 引擎的限制?

我知道有一些解决方法,比如使用更大的文件和训练块,所以我只需要每批下载一个文件而不是多个文件。或者使用 tf.train.QueueRunner 虽然我无法进行 tensorflow api 中所需的特定图像预处理并且必须预处理所有图像。这两种解决方案都需要对图像进行预处理才能工作,这是我想不惜一切代价避免的事情,因为我还没有确定最佳的图像尺寸,也不想为我想要的每个实验制作一个图像集试用。

0 投票
1 回答
605 浏览

google-cloud-ml - 使用 Rest API 的 Google Cloud ML

任何人都可以帮助我如何在 python 中使用 Rest API 访问 google cloud ml 服务。我已经使用邮递员尝试过,但它每次都会给出 404 响应。我在谷歌云上有一些项目我只想使用https://cloud.google.com/ml-engine/reference/rest/上提供的所有 api

0 投票
2 回答
139 浏览

google-cloud-ml - 没有培训师的谷歌云 ML

我们是否可以通过仅提供数据和相关列名称来训练模型,而无需使用 Rest API 或命令行界面在 Google Cloud ML 中创建训练器

0 投票
1 回答
86 浏览

google-cloud-ml - 在 Google Cloud ML 上的工作人员之间分配数据

我已经能够在分布式谷歌云 ML 中运行代码,但是当我运行它时,数据会在集群内的每台机器上复制,但我想在每台机器上分发数据。

如何在云 ML 上的集群内的每台机器上分发数据?请帮忙!!!!