问题标签 [google-cloud-ml]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
image - 来自 Dataflow 的 Google CloudML 权限 - 无法重新创建 google tensorflow 图像示例
我正在尝试使用他们新的 CLOUDML 工具来关注 Google 的这篇博文。
从他们提供的 docker 实例中运行
从...开始:
root@9e93221352d8:~/google-cloud-ml/samples/flowers#
运行第一个预处理步骤:
分配适当的值。
预处理评估集。
返回
前往控制台,日志显示:
我再次尝试使用
并从浏览器获取密钥。那里似乎没有任何问题。
我已经成功运行了 MNIST 云学习教程,因此与谷歌计算引擎通信没有身份验证问题。
我可以确认我的存储桶的路径是正确的:
但是没有创建文件夹flowers__20170106_165608(由于权限)。
Dataflow 是否需要单独的凭据?我去了控制台并确保我的帐户对数据流 API 是开放的。任何超越
编辑:下面接受的答案。我接受这个答案是因为 Jeremy Lewi 是正确的。问题不在于数据流确实具有权限,而是因为从未创建过 GCS 对象。进入预处理记录器,您可以看到
谷歌显示的教程可能没有很好地配置为免费层,我猜它分发到太多实例并超过了 CPU 配额。如果我不能解决,我将打开一个正确框架的问题。
python - 重新训练初始谷歌云停留在全局步骤 0
我正在关注鲜花教程,以便在 google cloud ml 上重新训练 inception。我可以运行教程、训练、预测,就好了。
然后我用鲜花数据集替换了我自己的测试数据集。图像数字的光学字符识别。
我的完整代码在这里
标签的字典文件
评估集
训练集
从 google 提供的最新 docker build 运行。
我可以预处理文件,并使用
但它永远不会超过全局步骤 0。鲜花教程在免费层上训练了大约 1 小时。我已经让我的训练时间长达 11 小时。没有动静。
查看堆栈驱动程序,没有任何进展。
我还尝试了一个包含 20 个训练图像和 10 个评估图像的小型玩具数据集。同样的问题。
也许不出所料,我无法在 tensorboard 中可视化这个日志,没有什么可显示的。
完整的训练日志:
只是重复最后一行,直到我杀死它。
我对这项服务的心理模型不正确吗?欢迎所有建议。
python - cloudml retraining inception - 收到超出有效范围的标签值
我正在关注鲜花教程,以便在 google cloud ml 上重新训练 inception。我可以运行教程、训练、预测,就好了。
然后我用鲜花数据集替换了我自己的测试数据集。图像数字的光学字符识别。
训练模型时,我收到错误:
训练和评估数据集的格式如下所示:
dict文件看起来像这样
我最初有 1、2、3、4 和 / 之类的标签,但我将它们更改为字符串,以防它们是特殊字符(尤其是 /)。我可以在这里看到一条类似的消息,但这与基于 0 的索引有关。
该消息的奇怪之处在于,确实有 13 种标签类型。不知何故,张量流只寻找 7 (0-6)。我的问题是,什么样的格式错误可能会使 tensorflow 认为标签数量少于实际数量。我可以确认测试和训练数据 80-20 拆分都具有所有标签类(尽管频率不同)。
我正在从 google 提供的最新 docker build 运行。
我正在使用提交培训作业
完整错误:
在我的桶里一切看起来都很好
并保存我的日志事件。
python - 在 google-cloud-ml 作业中加载 numpy 数组
在我要启动的模型中,我有一些变量必须使用特定值进行初始化。
我目前将这些变量存储到 numpy 数组中,但我不知道如何调整我的代码以使其适用于 google-cloud-ml 工作。
目前我像这样初始化我的变量:
有人能帮我吗 ?
google-cloud-dataflow - apache_beam.runners.dataflow_runner.DataflowRuntimeException:数据流管道失败:
我在 Cloud Shell 中设置了一个 Google Cloud 项目,并尝试运行此教程脚本https://github.com/GoogleCloudPlatform/cloudml-samples/blob/master/flowers/sample.sh
遇到这个错误:
我无法从GoogleCloud Dataflow 的错误日志中获得任何线索
感谢任何解决问题的答案和帮助。
docker - 计算引擎上用于谷歌 cloudML 的 Docker 容器 - 安装存储桶的身份验证
我一直在使用谷歌的机器学习平台,cloudML
.
大局:我正在尝试找出最简洁的方法来让他们的 docker环境启动并在 google 计算实例上运行,可以访问 cloudML API 和我的存储桶。
从本地开始,我配置了我的服务帐户
我使用 google 容器映像系列启动一个计算实例
编辑:需要明确设置与 cloudML 通信的范围。
然后我可以 ssh 进入该实例(用于调试)
在计算实例上,我可以从 GCR 中提取 cloudML docker 并运行它
我可以确认我可以访问我想要的存储桶。那里没有凭证问题
但是当我尝试安装桶时
一定是我需要从 docker 容器中激活我的服务帐户吗?我有类似的(其他地方未解决的问题)
我可以向 docker 传递一个凭据 .json 文件,但我不确定 gcloud ssh 在哪里/是否将这些文件传递给我的实例?
我可以更广泛地访问云平台,例如我可以向 cloudML API 发布请求。
成功了。所以一些凭据正在传递。我想我可以将它传递给计算引擎,然后从计算引擎传递给 docker 实例?感觉就像我没有按预期使用这些工具。我认为一旦我在本地进行身份验证,gcloud 就会处理这个问题。
google-cloud-ml - 重新训练 Inception 并指定 label_count = 2 但收到三个分数而不是两个
我已将花再训练代码修改为 label_count =2,如下所示:
gcloud beta ml jobs submit training "$JOB_ID" \
--module-name trainer.task \
--package-path trainer \
--staging-bucket "$BUCKET" \
--region us-central1 \
-- \
--output_path "${GCS_PATH}/training" \
--eval_data_paths "${GCS_PATH}/preproc/eval*" \
--train_data_paths "${GCS_PATH}/preproc/train*" \
--label_count 2 \
--max_steps 4000
而且我已经修改 dict.txt 只有两个标签。
但是重新训练的模型输出三个分数而不是预期的两个分数。意外的第三个分数总是非常小,如下例所示:
关键预测分数
Key123 0 [0.7956143617630005, 0.2043769806623459, 8.625334885437042e-06]
为什么会有三个分数,是否可以做出改变,使模型只输出两个分数?
注意:我已阅读 Slaven Bilac 和 JoshGC 对问题“<a href="https://stackoverflow.com/questions/41601620/cloudml-retraining-inception-received-a-label-value-outside-the -valid-range">cloudml retraining inception - 收到一个超出有效范围的标签值”但这些答案并没有解决我上面的问题。
google-cloud-ml - Cloud ML Hyper Parameter Tuning for CATEGORICAL 参数传递整数值
最近,当我使用超参数调整为 CATEGORICAL 参数提交训练作业时,Cloud ML 传递带有整数值的选项,而不是categoricalValues
文档中描述的参数选择 [ https://cloud.google.com/ml/reference/rest/v1beta1/项目.jobs#parameterspec]。
在 2017 年 1 月 12 日之前(在 JST 中),Cloud ML 确实通过了从categoricalValues
. 在我的项目中,当前的行为似乎始于 2017 年 1 月 13 日左右。
是 Cloud ML Hyper Parameter Tuning 的回归,还是特征的变化?我不能保证文档与当前行为不匹配(我认为这是模棱两可的)。无论如何,行为明显改变了,如果它是永久性功能改变,我必须处理它。
谢谢,
google-cloud-ml - Google Cloud ML 虚拟机的默认环境是什么?
https://cloud.google.com/ml/docs/concepts/training-overview提到以下内容:
如果您的培训师应用程序具有 Cloud ML 使用的默认虚拟机上尚不存在的任何依赖项,则您必须将它们打包并将它们也上传到 Google Cloud Storage 位置。
什么是“已经在 Cloud ML 使用的默认虚拟机上”?我在任何地方都找不到这个信息。
顺便说一句,这里是否有任何已发布的机器类型规格?https://cloud.google.com/ml/reference/rest/v1beta1/projects.jobs#ScaleTier