问题标签 [google-cloud-ml-engine]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
575 浏览

android - 如何在 Android 中使用 Google 自然语言处理云 API

大家好,我想为我的 android 应用程序使用 Google 的自然语言处理云 API。获取api引用的步骤是什么,要下载的所有内容以及要遵循的步骤是什么

0 投票
2 回答
3114 浏览

tensorflow - Training and Predicting with instance keys

I am able to train my model and use ML Engine for prediction but my results don't include any identifying information. This works fine when submitting one row at a time for prediction but when submitting multiple rows I have no way of connecting the prediction back to the original input data. The GCP documentation discusses using instance keys but I can't find any example code that trains and predicts using an instance key. Taking the GCP census example how would I update the input functions to pass a unique ID through the graph and ignore it during training yet return the unique ID with predictions? Or alternatively if anyone knows of a different example already using keys that would help as well.

From Census Estimator Sample

Update: I was able to use the suggested code from this answer below I just needed to alter it slightly to update the output alternatives in the model_fn_ops instead of just the prediction dict. However, this only works if my serving input function is coded for json inputs similar to this. My serving input function was previously modeled after the CSV serving input function in the Census Core Sample.

I think my problem is coming from the build_standardized_signature_def function and even more so the is_classification_problem function that it calls. The input dict length using the csv serving function is 1 so this logic ends up using the classification_signature_def which only ends up displaying the scores (which turns out are actually the probabilities) whereas the input dict length is greater than 1 with the json serving input function and instead the predict_signature_def is used which includes all of the outputs.

0 投票
1 回答
5252 浏览

tensorflow - 使用存储在 Google Cloud 上的训练 TFRecord

我的目标是在本地运行我的 Tensorflow 培训应用程序时使用存储在 Google Cloud 存储中的培训数据(格式:tfrecords)。(为什么是本地?:我在将其转换为 Cloud ML 的培训包之前进行测试)

基于这个线程,我不应该做任何事情,因为底层的 Tensorflow API 应该能够读取 gs://(url)

但是事实并非如此,我看到的错误格式如下:

2017-06-06 15:38:55.589068:I tensorflow/core/platform/cloud/retrying_utils.cc:77] 操作失败,将在 1.38118 秒内自动重试(尝试 10 次中的 1 次),原因是:不可用:执行 HTTP 请求时出错(HTTP 响应代码 0,错误代码 6,错误消息“无法解析主机“元数据”)

2017-06-06 15:38:56.976396: I tensorflow/core/platform/cloud/retrying_utils.cc:77] 操作失败,将在 1.94469 秒内自动重试(尝试 10 次中的 2 次),原因是:不可用:执行 HTTP 请求时出错(HTTP 响应代码 0,错误代码 6,错误消息“无法解析主机“元数据”)

2017-06-06 15:38:58.925964: I tensorflow/core/platform/cloud/retrying_utils.cc:77] 操作失败,将在 2.76491 秒内自动重试(10 次尝试 3 次),原因是:不可用:执行 HTTP 请求时出错(HTTP 响应代码 0,错误代码 6,错误消息“无法解析主机“元数据”)

我无法遵循必须开始调试此错误的位置。

这是一个重现问题的片段,还显示了我正在使用的 tensorflow API。

0 投票
0 回答
762 浏览

tensorflow - 上传到 Cloud ML Engine 的模型不会创建版本,而是在本地运行

我已经训练了一个我想在 Google Cloud ML Engine 中服务的模型。我已使用所需的 SavedModel 格式将其导出,并使用以下方法对其进行了测试:

saved/目录只包含saved_model.pb文件,并且one-record.json. 上述命令有效并产生写入控制台的预测。

我已将此目录的内容复制到云存储桶(例如gs://my-bucket/saved/),并尝试创建如下版本:

该模型存在并使用 创建--enable-logging,但在控制台的 StackDriver 部分中没有生成日志,也没有在我的本地终端上输出。我收到此错误:

有什么办法可以进一步调试吗?“无法加载模型”不是很有帮助,唯一的建议是尝试在本地进行测试,这很有效。

0 投票
1 回答
351 浏览

memory-leaks - TensorFlow Google Cloud ML 训练中的内存泄漏

我一直在尝试 Google Cloud ML 上的 TensorFlow 教程脚本。特别是我在https://github.com/tensorflow/models/tree/master/tutorials/image/cifar10使用了 cifar10 CNN 教程脚本。

当我在 Google Cloud ML 中运行这个训练脚本时,每小时会出现大约 0.5% 的内存泄漏。

除了将脚本打包成所需的 GCP 格式(如https://cloud.google.com/ml-engine/docs/how-tos/packaging-trainer中所述)并设置数据之外,我没有对脚本进行任何更改包含 .bin 数据文件的存储桶的位置。

如果我在本地运行,即不在谷歌云中,并使用 TCMALLOC,通过设置 LD_PRELOAD="/usr/lib/libtcmalloc.so" ,内存泄漏得到解决。但是,我在 Google Cloud ML 中没有这个选项。

什么可能导致泄漏,我能做些什么来解决这个问题?为什么其他用户没有注意到同样的问题?虽然泄漏很小,但当我针对自己的数据运行几天时,它足以导致我的训练课程耗尽内存并失败。无论我使用多少 GPU,都会发生泄漏。

我使用的 gcloud 命令是:

配置文件(config.yml)是:

任何帮助表示赞赏,谢谢。

0 投票
1 回答
565 浏览

machine-learning - 没有日志,没有来自 Google Cloud ML Training Job 的输出

我正在尝试在 Google 的 Cloud ML 上运行培训作业。我工作的迹象是:

  • 诸如此类的消息表明该软件包已构建并安装:

INFO 2017-06-07 15:14:01 -0700 master-replica-0 成功构建 training-job-foo

INFO 2017-06-07 15:14:01 -0700 master-replica-0 安装收集的软件包:training-job-foo

INFO 2017-06-07 15:14:01 -0700 master-replica-0 成功安装 training-job-foo-0.1.dev0

INFO 2017-06-07 15:14:01 -0700 master-replica-0 运行命令:pip install --user training-job-foo-0.1.dev0.tar.gz

信息 2017-06-07 15:14:02 -0700 master-replica-0 处理 ./training-job-foo-0.1.dev0.tar.gz

  • 这样的消息表明我的工作开始了:

INFO 2017-06-07 15:14:03 -0700 master-replica-0 运行命令:python -m training-job-foo.training_routine_bar --job-dir gs://regional-bucket-similar-to-training-工作/输出/

  • 像这样的消息表明我的标量摘要正在处理中:

INFO 2017-06-07 15:14:21 -0700 master-replica-0 摘要名称 Total Accuracy 是非法的;改为使用 Total_Accuracy。

  • 最后,我还看到 CPU、内存使用量增加,并且我的消耗的 MLUnits 增加

  • 我应该补充一点,我还看到摘要 Filewriters 在创建作业之前创建了摘要文件,但我没有看到这些文件的大小增加。我还看到写入 gs://regional-bucket-similar-to-training-job/output/ 的初始检查点文件

除此之外,我看不到更多的日志或输出。我应该看到日志,因为我打印准确性,经常丢失。我还编写摘要和检查点文件。

我错过了什么?

在这种情况下还有哪些其他调试工具可用?我目前所做的只是流式传输日志,在 Cloud ML 控制台上查看作业状态、CPU 使用情况、内存使用情况,并查看我的 Cloud Storage 存储桶是否有任何变化

0 投票
2 回答
899 浏览

ios - 将 Google 的 SavedModel 转换为 Apple 的 mlmodel

本周,Apple宣布支持经过训练的 ML 模型。

如何将经过训练的 Tensorflow 模型(SavedModel 格式的 Google Cloud 机器学习引擎模型)转换为 Apple Core ML模型(.mlmodel 格式)?

0 投票
2 回答
154 浏览

google-cloud-ml - CloudML 作业 + 详细程度 == 错误

dataeng-machine-learning在 step 上运行 codelab 9. 4. Feature Engineering

运行 tarin 作业的笔记本步骤是: %%bash OUTDIR=gs://${BUCKET}/taxifare/ch4/taxi_trained JOBNAME=lab4a_$(date -u +%y%m%d_%H%M%S) echo $OUTDIR $REGION $JOBNAME gsutil -m rm -rf $OUTDIR gcloud ml-engine jobs submit training $JOBNAME \ --region=$REGION \ --module-name=trainer.task \ --package-path=${REPO}/courses/machine_learning/feateng/taxifare/trainer \ --job-dir=$OUTDIR \ --staging-bucket=gs://$BUCKET \ --scale-tier=BASIC \ --runtime-version=1.0 \ -- \ --train_data_paths="gs://$BUCKET/taxifare/ch4/taxi_preproc/train*" \ --eval_data_paths="gs://${BUCKET}/taxifare/ch4/taxi_preproc/valid*" \ --output_dir=$OUTDIR \ --num_epochs=100

无论我运行多少次,它都非常有效。

但是,如果我运行: %%bash OUTDIR=gs://${BUCKET}/taxifare/ch4/taxi_trained JOBNAME=lab4a_$(date -u +%y%m%d_%H%M%S) echo $OUTDIR $REGION $JOBNAME gsutil -m rm -rf $OUTDIR gcloud ml-engine jobs submit training $JOBNAME \ --region=$REGION \ --module-name=trainer.task \ --package-path=${REPO}/courses/machine_learning/feateng/taxifare/trainer \ --job-dir=$OUTDIR \ --staging-bucket=gs://$BUCKET \ --scale-tier=BASIC \ --runtime-version=1.0 \ -- \ --train_data_paths="gs://$BUCKET/taxifare/ch4/taxi_preproc/train*" \ --eval_data_paths="gs://${BUCKET}/taxifare/ch4/taxi_preproc/valid*" \ --output_dir=$OUTDIR \ --num_epochs=100 \ --verbosity DEBUG

大约 40 秒后作业失败。在日志中有这个: The replica master 0 exited with a non-zero status of 2. Termination reason: Error.

我在这里找到了这种用法: https ://cloud.google.com/ml-engine/docs/how-tos/getting-started-training-prediction#cloud-train-single

所以我想它可以使用。

我究竟做错了什么?

0 投票
1 回答
843 浏览

google-cloud-ml - 预测失败:未知错误

我正在使用 Google Cloud Machine Learning 来预测带有标签的图像。我已经训练了名为flower 的模型,并且在 Google API Exporer 上看到了 API 端点,但是当我在 API Explorer 中调用 API 时,出现以下错误:

图像错误

我不明白为什么。

谢谢

伊贝尔

0 投票
1 回答
47 浏览

google-app-engine - 将数据上传到已部署模型以从 appengine 进行预测时出错。从本地系统工作正常

我面临将数据从 appengine 上传到已部署模型以进行预测的问题。该功能在我的本地系统上运行良好,但是当我部署应用程序时,我收到一些错误,说数据不是 Json 可序列化的。我不明白这一点,任何帮助将不胜感激。

示例代码:

来自 appengine 的输出日志log file

<code>日志文件</code>