问题标签 [google-cloud-ml-engine]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
183 浏览

google-cloud-ml - 在本地安装 google cloud ml 的问题

我已按照以下说明在本地设置 google-cloud-ml:MAC/LINUX

google-cloud-ml 设置

但是在使用此命令验证设置时出现以下错误

Traceback(最近一次调用最后一次):文件“”,第 70 行,在文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/init .py ”中,第 16 行,从 google.cloud.ml.dataflow._analyzer 导入 AnalyzeModel 文件“ /Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/init.py”,第 22 行,从 _ml_transforms 导入 DeployVersion 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/_ml_transforms.py”,第 24 行,在 import _ml_functions as ml_func File "/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/_ml_functions.py",第 25 行,来自 google.cloud .ml.io.coders 导入 TrainingJobResult 文件“ /Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/io/init.py”,第 21 行,从转换导入 LoadFeatures 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/io/transforms.py”,第 23 行,在从 google.cloud.ml.dataflow.io 导入 tfrecordio 文件“ /Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/io/init .py ”,第 15 行,在导入 tfrecordio 文件中“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/io/tfrecordio.py”,第 16 行,在_crc32c_fn = snappy._crc32c # pylint: disable=protected-access AttributeError: 'module' 对象没有属性 '_crc32c'

看起来谷歌云的数据流库有一些问题。

我尝试使用以下命令升级数据流库

但现在,另一个错误。以下是堆栈跟踪:

Traceback(最近一次调用最后一次):文件“”,第 70 行,在文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/init .py ”中,第 16 行,从 google.cloud.ml.dataflow._analyzer 导入 AnalyzeModel 文件“ /Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/init .py ”,第 17 行,从 _analyzer 导入分析模型文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/_analyzer.py”,第 19 行,在将apache_beam导入为梁文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/init.py”,第 78 行,从 apache_beam 导入 io 文件“ /Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/io/init.py”,第 21 行,从 apache_beam.io.avroio 导入 * 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/io/avroio.py”,第 29 行,从 apache_beam.io 导入 filebasedsource 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/io/filebasedsource.py”,第 32 行,从 apache_beam.io 导入 concat_source文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/io/concat_source.py”,第 24 行,从 apache_beam.io 导入 iobase 文件“/Users/pratyusha/miniconda2 /envs/cloudml/lib/python2.7/site-packages/apache_beam/io/iobase.py",第 853 行,从 apache_beam.runners.dataflow.native_io.iobase 导入 * 文件"/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/runners/init .py”,第 23 行,从 apache_beam.runners.dataflow_runner 导入 DataflowRunner 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/runners/dataflow_runner.py”,行32,从 apache_beam.internal 导入 json_value 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/internal/json_value.py”,第 20 行,从 apitools.base。 py import extra_types 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apitools/base/py/init .py ”,第 23 行,从 apitools.base.py.credentials_lib 导入* 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apitools/base/py/credentials_lib.py”,第 50 行,从 oauth2client 导入locked_file

0 投票
1 回答
457 浏览

tensorflow - 使用 tf.learn.Experiment 禁用 eval

如果我使用 tf.learn.Experiment,禁用评估的最佳方法是什么?

我正在运行这个构建实验的模型。

要调试评估问题,我想阻止评估运行。是否有捷径可寻?

0 投票
2 回答
1489 浏览

tensorflow - 在 Google Cloud ML 中提交作业培训时出错

我目前正在尝试使用 Facenet(用于人脸识别的 Tensorflow 库)提交关于 Google Cloud ML 的工作培训。我目前正在尝试这个(链接在这里)库的一部分,它对模型进行训练。

转到 Google Cloud ML,我正在关注本教程(链接在此处),它教您如何提交培训。

我能够成功地向 Google Cloud ML 提交工作培训,但出现了错误。以下是一些错误图片:

这是错误的图片:

这是来自 Google Cloud Jobs 日志的错误

这是 Google Cloud Jobs 中错误日志的图片

以下是 Google Cloud Job 日志上的更详细图片

以下是 Google Cloud Job 日志上的更详细图片 (1)

以下是 Google Cloud Job 日志上的更详细图片 (2)

提交作业请求是成功的,它甚至在等待 Tensorflow 启动,但之后就出现了那个错误。

我用来运行它的命令在这里:

对于如何解决这个问题,有任何的建议吗?谢谢!

0 投票
2 回答
241 浏览

google-cloud-platform - 从 Google Cloud ML 测试版迁移到 Google Cloud 机器学习引擎

谷歌今天宣布了新机器学习环境的测试版。有人可以告诉我 Google CloudML 的位置吗?文档似乎在一夜之间发生了变化。我猜那些命令是

现在

无法解析今天发布的笔记:

https://cloud.google.com/ml-engine/docs/resources/release-notes

我在这里按照教程进行操作。

https://cloud.google.com/blog/big-data/2016/12/how-to-train-and-classify-images-using-google-cloud-machine-learning-and-cloud-dataflow

我还应该注意什么?

0 投票
2 回答
259 浏览

python - 如何使用更多 python 脚本向 ml cloud 提交作业以进行训练

我有一个包含多个 python 代码文件的项目。我有一个模型文件,一个用于数据实用程序,一个用于训练模型。我知道如何提交一个所有代码都在一个文件中的模型。如何表明 T 在我的项目中有更多文件?也许需要在setup.py文件中添加一些东西或__init__.py.

我的目录如下所示:

0 投票
1 回答
2466 浏览

google-cloud-ml - 在谷歌云机器学习中读取文件

我尝试在 google cloud ml-engine 上运行tensorflow-wavenetgcloud ml-engine jobs submit training ,但云作业在尝试读取 json 配置文件时崩溃:

arg.wavenet_params只是我上传到谷歌云存储桶的 json 文件的文件路径。文件路径如下所示:gs://BUCKET_NAME/FILE_PATH.json.

我仔细检查了文件路径是否正确,并且我确信这部分是导致崩溃的原因,因为我注释掉了其他所有内容。

崩溃日志文件没有提供太多关于发生了什么的信息:

我替换wavenet_params = json.load(f)f.close(),我仍然得到相同的结果。

当我使用本地运行它时,一切正常gcloud ml-engine local train

我认为问题在于通常使用 读取文件,gcloud ml-engine或者我无法从带有gs://BUCKET_NAME/FILE_PATH.

0 投票
1 回答
4264 浏览

tensorflow - 如何在不重新训练模型的情况下更改 SavedModel 的签名?

我刚刚完成了模型的训练,却发现我导出的服务模型存在签名问题。我该如何更新它们?

(一个常见问题是为 CloudML Engine 设置了错误的形状)。

0 投票
1 回答
292 浏览

scipy - Google Cloud ML scipy.misc.imread 返回

我正在运行以下代码段:

如果我在 Cloud Console 中运行该代码段,我会得到一个正确的数组。但是当同样的代码片段在 Cloud ML 中运行时,img 对象是

<PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=178x218 at 0x7F1F8F26DA10>

这个 stackoverflow 答案表明安装 PIL 时未安装 libjpeg。Cloud ML 运行时版本列表显示,对于Tensorflow 0.12,libjpeg-dev 是已安装的 debian 软件包。

0 投票
1 回答
470 浏览

tensorflow - How to interpret Google Cloud ML Prediction results?

I worked through the GC ML Census Wide & Deep Learning example https://github.com/GoogleCloudPlatform/cloudml-samples/tree/master/census

Given census data about a person such as age, gender, education and occupation (the features), this DNNLinearCombinedClassifier model should predict whether or not the person earns more than 50,000 dollars a year (the target label).

I ran an online prediction gcloud ml-engine predict --model census --version v1 --json-instances ../test.json

using the test.json data {"age": 25, "workclass": " Private", "education": " 11th", "education_num": 7, "marital_status": " Never-married", "occupation": " Machine-op-inspct", "relationship": " Own-child", "race": " Black", "gender": " Male", "capital_gain": 0, "capital_loss": 0, "hours_per_week": 40, "native_country": " United-States"}

I get the following result: {"probabilities": [0.9962924122810364, 0.003707568161189556], "logits": [-5.593664646148682], "classes": 0, "logistic": [0.003707568161189556]}

How do I interpret this ? my current understanding is that logit is the inverse of the sigmoid binary classification activation function in the output layer (not sure what the output numbers signify) and that classes: 0 refers to a binary classification of < $50,000, as opposed to 1 (>= $50,000)

0 投票
1 回答
363 浏览

google-cloud-platform - 找出 Cloud ML 训练的瓶颈

我正在尝试在 celebA 上训练DCGAN。训练过程似乎进展得很慢,我想弄清楚是什么导致了瓶颈。当我使用规模层 STANDARD_1、BASIC_GPU 或仅在我 6 岁的 4 核 CPU 笔记本电脑上本地运行时,训练一个 epoch 所需的时间似乎非常相似。在这三种配置中,每个训练步骤大约需要 25 秒,尽管我注意到每隔一段时间训练步骤需要几分钟。

使用 BASIC_GPU 时,cpu 利用率小于 0.1。我使用 BASIC 层进行了一个实验,master 悬停在 0.4 处,每步大约需要 40 秒。使用 STANDARD_1 时,我得到以下 cpu 利用率:

  • 大师:0.28
  • 工人:.21
  • 参数服务器(ps):.48

在使用单个 worker 的 BASIC 上运行时,CPU 利用率不应该接近 100% 吗?

按照这个速度,训练 celebA 的一个 epoch 需要 22 小时,图像缩小到 64x64。从 repo 中查看其他人的训练日志,看起来这明显高于使用 GPU 训练的其他人。