问题标签 [google-cloud-ml-engine]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-ml - 在本地安装 google cloud ml 的问题
我已按照以下说明在本地设置 google-cloud-ml:MAC/LINUX
但是在使用此命令验证设置时出现以下错误
Traceback(最近一次调用最后一次):文件“”,第 70 行,在文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/init .py ”中,第 16 行,从 google.cloud.ml.dataflow._analyzer 导入 AnalyzeModel 文件“ /Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/init.py”,第 22 行,从 _ml_transforms 导入 DeployVersion 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/_ml_transforms.py”,第 24 行,在 import _ml_functions as ml_func File "/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/_ml_functions.py",第 25 行,来自 google.cloud .ml.io.coders 导入 TrainingJobResult 文件“ /Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/io/init.py”,第 21 行,从转换导入 LoadFeatures 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/io/transforms.py”,第 23 行,在从 google.cloud.ml.dataflow.io 导入 tfrecordio 文件“ /Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/io/init .py ”,第 15 行,在导入 tfrecordio 文件中“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/io/tfrecordio.py”,第 16 行,在_crc32c_fn = snappy._crc32c # pylint: disable=protected-access AttributeError: 'module' 对象没有属性 '_crc32c'
看起来谷歌云的数据流库有一些问题。
我尝试使用以下命令升级数据流库
但现在,另一个错误。以下是堆栈跟踪:
Traceback(最近一次调用最后一次):文件“”,第 70 行,在文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/init .py ”中,第 16 行,从 google.cloud.ml.dataflow._analyzer 导入 AnalyzeModel 文件“ /Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/init .py ”,第 17 行,从 _analyzer 导入分析模型文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/google/cloud/ml/dataflow/_analyzer.py”,第 19 行,在将apache_beam导入为梁文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/init.py”,第 78 行,从 apache_beam 导入 io 文件“ /Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/io/init.py”,第 21 行,从 apache_beam.io.avroio 导入 * 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/io/avroio.py”,第 29 行,从 apache_beam.io 导入 filebasedsource 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/io/filebasedsource.py”,第 32 行,从 apache_beam.io 导入 concat_source文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/io/concat_source.py”,第 24 行,从 apache_beam.io 导入 iobase 文件“/Users/pratyusha/miniconda2 /envs/cloudml/lib/python2.7/site-packages/apache_beam/io/iobase.py",第 853 行,从 apache_beam.runners.dataflow.native_io.iobase 导入 * 文件"/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/runners/init .py”,第 23 行,从 apache_beam.runners.dataflow_runner 导入 DataflowRunner 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/runners/dataflow_runner.py”,行32,从 apache_beam.internal 导入 json_value 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apache_beam/internal/json_value.py”,第 20 行,从 apitools.base。 py import extra_types 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apitools/base/py/init .py ”,第 23 行,从 apitools.base.py.credentials_lib 导入* 文件“/Users/pratyusha/miniconda2/envs/cloudml/lib/python2.7/site-packages/apitools/base/py/credentials_lib.py”,第 50 行,从 oauth2client 导入locked_file
tensorflow - 在 Google Cloud ML 中提交作业培训时出错
我目前正在尝试使用 Facenet(用于人脸识别的 Tensorflow 库)提交关于 Google Cloud ML 的工作培训。我目前正在尝试这个(链接在这里)库的一部分,它对模型进行训练。
转到 Google Cloud ML,我正在关注本教程(链接在此处),它教您如何提交培训。
我能够成功地向 Google Cloud ML 提交工作培训,但出现了错误。以下是一些错误图片:
这是来自 Google Cloud Jobs 日志的错误
以下是 Google Cloud Job 日志上的更详细图片
提交作业请求是成功的,它甚至在等待 Tensorflow 启动,但之后就出现了那个错误。
我用来运行它的命令在这里:
对于如何解决这个问题,有任何的建议吗?谢谢!
google-cloud-platform - 从 Google Cloud ML 测试版迁移到 Google Cloud 机器学习引擎
谷歌今天宣布了新机器学习环境的测试版。有人可以告诉我 Google CloudML 的位置吗?文档似乎在一夜之间发生了变化。我猜那些命令是
现在
无法解析今天发布的笔记:
https://cloud.google.com/ml-engine/docs/resources/release-notes
我在这里按照教程进行操作。
我还应该注意什么?
python - 如何使用更多 python 脚本向 ml cloud 提交作业以进行训练
我有一个包含多个 python 代码文件的项目。我有一个模型文件,一个用于数据实用程序,一个用于训练模型。我知道如何提交一个所有代码都在一个文件中的模型。如何表明 T 在我的项目中有更多文件?也许需要在setup.py
文件中添加一些东西或__init__.py
.
我的目录如下所示:
google-cloud-ml - 在谷歌云机器学习中读取文件
我尝试在 google cloud ml-engine 上运行tensorflow-wavenetgcloud ml-engine jobs submit training
,但云作业在尝试读取 json 配置文件时崩溃:
arg.wavenet_params
只是我上传到谷歌云存储桶的 json 文件的文件路径。文件路径如下所示:gs://BUCKET_NAME/FILE_PATH.json
.
我仔细检查了文件路径是否正确,并且我确信这部分是导致崩溃的原因,因为我注释掉了其他所有内容。
崩溃日志文件没有提供太多关于发生了什么的信息:
我替换wavenet_params = json.load(f)
为f.close()
,我仍然得到相同的结果。
当我使用本地运行它时,一切正常gcloud ml-engine local train
。
我认为问题在于通常使用 读取文件,gcloud ml-engine
或者我无法从带有gs://BUCKET_NAME/FILE_PATH
.
tensorflow - 如何在不重新训练模型的情况下更改 SavedModel 的签名?
我刚刚完成了模型的训练,却发现我导出的服务模型存在签名问题。我该如何更新它们?
(一个常见问题是为 CloudML Engine 设置了错误的形状)。
scipy - Google Cloud ML scipy.misc.imread 返回
我正在运行以下代码段:
如果我在 Cloud Console 中运行该代码段,我会得到一个正确的数组。但是当同样的代码片段在 Cloud ML 中运行时,img 对象是
<PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=178x218 at 0x7F1F8F26DA10>
这个 stackoverflow 答案表明安装 PIL 时未安装 libjpeg。Cloud ML 运行时版本列表显示,对于Tensorflow 0.12,libjpeg-dev 是已安装的 debian 软件包。
tensorflow - How to interpret Google Cloud ML Prediction results?
I worked through the GC ML Census Wide & Deep Learning example https://github.com/GoogleCloudPlatform/cloudml-samples/tree/master/census
Given census data about a person such as age, gender, education and occupation (the features), this DNNLinearCombinedClassifier model should predict whether or not the person earns more than 50,000 dollars a year (the target label).
I ran an online prediction
gcloud ml-engine predict --model census --version v1 --json-instances ../test.json
using the test.json data
{"age": 25, "workclass": " Private", "education": " 11th", "education_num": 7, "marital_status": " Never-married", "occupation": " Machine-op-inspct", "relationship": " Own-child", "race": " Black", "gender": " Male", "capital_gain": 0, "capital_loss": 0, "hours_per_week": 40, "native_country": " United-States"}
I get the following result:
{"probabilities": [0.9962924122810364, 0.003707568161189556], "logits": [-5.593664646148682], "classes": 0, "logistic": [0.003707568161189556]}
How do I interpret this ?
my current understanding is that logit is the inverse of the sigmoid binary classification activation function in the output layer (not sure what the output numbers signify) and that classes: 0
refers to a binary classification of < $50,000, as opposed to 1 (>= $50,000)
google-cloud-platform - 找出 Cloud ML 训练的瓶颈
我正在尝试在 celebA 上训练DCGAN。训练过程似乎进展得很慢,我想弄清楚是什么导致了瓶颈。当我使用规模层 STANDARD_1、BASIC_GPU 或仅在我 6 岁的 4 核 CPU 笔记本电脑上本地运行时,训练一个 epoch 所需的时间似乎非常相似。在这三种配置中,每个训练步骤大约需要 25 秒,尽管我注意到每隔一段时间训练步骤需要几分钟。
使用 BASIC_GPU 时,cpu 利用率小于 0.1。我使用 BASIC 层进行了一个实验,master 悬停在 0.4 处,每步大约需要 40 秒。使用 STANDARD_1 时,我得到以下 cpu 利用率:
- 大师:0.28
- 工人:.21
- 参数服务器(ps):.48
在使用单个 worker 的 BASIC 上运行时,CPU 利用率不应该接近 100% 吗?
按照这个速度,训练 celebA 的一个 epoch 需要 22 小时,图像缩小到 64x64。从 repo 中查看其他人的训练日志,看起来这明显高于使用 GPU 训练的其他人。