问题标签 [google-cloud-ml-engine]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
587 浏览

google-cloud-platform - 用户没有所需的权限 ml.versions.predict 对资源(Cloud ML Engine)

我有一个服务帐户,我已授予查看者角色,并已下载凭据 json 文件并为其设置正确的环境变量。我正在尝试在这里运行示例:

但是,这给了我一个 403 和错误The user doesn't have the required permission ml.versions.predict on the resource projects/project/models/model/versions/version。我不确定我做错了什么 - 我正在为凭据设置正确的环境变量,根据他们的文档,服务帐户只需要查看者角色即可访问此端点。我做错了什么?

0 投票
1 回答
302 浏览

machine-learning - Tensorflow、google cloud ML:如何使用之前的检查点来训练新图像?

我正在使用 Google Cloud Machine Learning 上的图像分类和 Tensorflow。每次我训练一个新项目时,它都能完美运行,但每次我对我的数据集进行更新(将新图像上传到数据库)时,我都必须重新训练所有内容。有没有办法从最后一个检查点重新训练,我应该如何在云中做到这一点?

感谢大家!

0 投票
1 回答
254 浏览

tcmalloc - 如何在 Google Cloud ML Engine 上使用 TCMalloc

如何在 Google Cloud ML Engine 上使用 TCMalloc?或者除了 TCMalloc 之外,还有没有其他方法可以解决 ML Engine 上的内存泄漏问题?

完成图表似乎没有帮助。


内存利用率图: 在此处输入图像描述

训练 73 个 epoch 后,我出现了内存不足错误。这是训练日志的一部分:

11:26:33.707 作业失败。

11:26:20.949 完成拆除 TensorFlow。

11:25:18.568 副本 master 0 内存不足并以非零状态 247 退出。要了解有关您的作业退出原因的更多信息,请查看日志

11:25:07.785 清理完毕。

11:25:07.785 模块完成;打扫干净。

11:25:07.783 模块因未能调用子进程命令而引发异常命令 '['python', '-m', u'trainer.main', u'--data=gs://', u'-- train_log_dir=gs://tfoutput/joboutput', u'--model=trainer.crisp_model', u'--num_threads=32', u'--memory_usage=0.8', u'--max_out_norm=1', u '--train_batch_size=64', u'--sample_size=112', u'--num_gpus=4', u'--allow_growth=True', u'--weight_loss_by_train_size=True', u'-x',返回非零退出状态 -9。

11:23:08.853 PNG 警告:扩展块时超出大小限制

11:18:18.474 纪元 58.0:准确度 = 0.9109

11:17:14.851 2017-05-17 10:17:14.851024: epoch 58, loss = 0.12, lr = 0.085500 (228.9 examples/sec; 0.280 sec/batch)

11:15:39.532 PNG 警告:扩展块时超出大小限制

11:10:23.855 PoolAllocator:372618242个get请求后,put_count=372618151 evicted_count=475000 eviction_rate=0.00127476,不满足分配率=0.00127518

11:05:32.928 PNG 警告:扩展块时超出大小限制

10:59:26.006 纪元 57.0:准确度 = 0.8868

10:58:24.117 2017-05-17 09:58:24.117444: epoch 57, loss = 0.23, lr = 0.085750 (282.2 examples/sec; 0.227 sec/batch)

10:54:37.440 PNG 警告:扩展块时超出大小限制

10:53:30.323 PoolAllocator:366350973个get请求后,put_count=366350992 evicted_count=465000 eviction_rate=0.00126927和不满足分配率=0.0012694

10:51:51.417 PNG 警告:扩展块时超出大小限制

10:40:43.811 纪元 56.0:准确度 = 0.7897

10:39:41.308 2017-05-17 09:39:41.308624: epoch 56, loss = 0.06, lr = 0.086000 (273.8 examples/sec; 0.234 sec/batch)

10:38:14.522 PoolAllocator: 360630699 次获取请求后,put_count=360630659 evicted_count=455000 eviction_rate=0.00126168 和不满足分配率=0.00126197

10:36:10.480 PNG 警告:扩展块时超出大小限制

10:21:50.715 纪元 55.0:准确度 = 0.9175

10:20:51.801 PoolAllocator:354197216个get请求后,put_count=354197255 evicted_count=445000 eviction_rate=0.00125636和不满足分配率=0.00125644

10:20:49.815 2017-05-17 09:20:49.815251: epoch 55, loss = 0.25, lr = 0.086250 (285.6 examples/sec; 0.224 sec/batch)

10:02:56.637 纪元 54.0:准确度 = 0.9191

10:01:57.367 2017-05-17 09:01:57.367369: epoch 54, loss = 0.09, lr = 0.086500 (256.5 examples/sec; 0.249 sec/batch)

10:01:42.365 PoolAllocator:347107694个get请求后,put_count=347107646 evicted_count=435000 eviction_rate=0.00125321和不满足分配率=0.00125354

09:45:56.116 PNG 警告:扩展块时超出大小限制

09:44:12.698 纪元 53.0:准确度 = 0.9039

09:43:09.888 2017-05-17 08:43:09.888202: epoch 53, loss = 0.10, lr = 0.086750 (307.0 examples/sec; 0.208 sec/batch)

09:41:48.672 PoolAllocator:339747205 次获取请求后,put_count=339747210 evicted_count=425000 eviction_rate=0.00125093 和不满意的分配率=0.00125111

09:36:14.085 PNG 警告:扩展块时超出大小限制

09:35:11.686 PNG 警告:扩展块时超出大小限制

09:34:45.011 PNG 警告:扩展块时超出大小限制

09:31:03.212 PNG 警告:扩展块时超出大小限制

09:28:40.116 PoolAllocator:335014430 次获取请求后,put_count=335014342 evicted_count=415000 eviction_rate=0.00123875 和不满足分配率=0.00123921

09:27:38.374 PNG 警告:扩展块时超出大小限制

09:25:23.913 PNG 警告:扩展块时超出大小限制

09:25:16.065 纪元 52.0:准确度 = 0.9313

09:24:16.963 2017-05-17 08:24:16.962930: epoch 52,损失 = 0.11,lr = 0.087000(278.7 示例/秒;0.230 秒/批次)

09:17:48.417 PNG 警告:扩展块时超出大小限制

09:13:34.740 PoolAllocator: 329380055 次获取请求后,put_count=329379978 evicted_count=405000 eviction_rate=0.00122958 和不满足分配率=0.00123001

09:06:09.948 更新纪元 51.0:准确度 = 0.9357

09:06:09.948 纪元 51.0:准确度 = 0.9357

09:05:09.575 2017-05-17 08:05:09.575641: epoch 51,损失 = 0.11,lr = 0.087250(248.4 示例/秒;0.258 秒/批次)

08:59:17.735 PNG 警告:扩展块时超出大小限制

08:55:58.605 PoolAllocator:322904781个get请求后,put_count=322904714 evicted_count=395000 eviction_rate=0.00122327和不满足分配率=0.00122368

08:48:46.322 PNG 警告:扩展块时超出大小限制

08:47:27.936 纪元 50.0:准确度 = 0.9197

08:46:29.370 2017-05-17 07:46:29.370135: epoch 50, loss = 0.20, lr = 0.087500 (253.2 examples/sec; 0.253 sec/batch)

我已经尝试在本地机器上使用 TCMalloc 进行培训,但仍然存在内存泄漏,但少于不使用它。

0 投票
1 回答
64 浏览

google-api-client - 为什么 Google Client API 库而不是 Google Cloud 客户端库中存在 ml-engine 函数?

https://cloud.google.com/ml-engine/docs/tutorials/python-guide说谷歌客户端 API 库中存在 ml-engine 库。既然谷歌云客户端库是为云应用量身定做的,它应该没有吧?

0 投票
3 回答
148 浏览

machine-learning - 为什么我在尝试设置 Datalab 并在 Cloud ML Engine 上进行图像分类时收到“加载笔记本时出错”错误?

我正在关注这里的教程:

https://codelabs.developers.google.com/codelabs/cloud-ml-engine-image-classification/index.html?index=..%2F..%2Findex#0

它声称它将允许我在谷歌云上进行图像分类。我按照说明进行操作,但是当我进入“启动数据实验室笔记本”的第 4 步时。它告诉我在 Google Cloud DataLab 中打开 docs 文件夹,然后打开名为:Hello World.ipynb 的文件。

当我打开这个文件时,我得到一个非常奇怪的错误,我在谷歌上找不到任何东西。错误是一个模式,它说:

没有代码从文件加载。有没有搞错???我究竟做错了什么?

0 投票
3 回答
733 浏览

tensorflow - google cloud ml 人口普查样本上的本地预测

我在本地和云端都成功地训练了我的https://github.com/GoogleCloudPlatform/cloudml-samples/tree/master/census模型/实验。而且我能够在云中部署我的示例并运行预测。

但是,如果我想在本地运行我的预测——而不是在云端——我该怎么做呢?

我是新手,但我尝试了几种幼稚的方法,但都失败了,请参阅下面的 3 个具体方法。

欢迎任何提示或引用片段。

:-)

M。

** 原帖中关于方法 #1 的更新**

如果我包括单行;

c = tf.contrib.learn.DNNLinearCombinedClassifier(model_dir=job_dir)

我收到一个错误,请参阅下面的错误 #a。

如果我天真地编辑调用以包含缺少的参数,则构造函数可以工作,但是如果我调用 predict 失败并出现错误 #b,请参见下文。我将 model.py 中的 wide_columns 和 deep_columns 设为全局,并将上面的行修改为

c = tf.contrib.learn.DNNLinearCombinedClassifier(model_dir=job_dir, linear_feature_columns=model.wide_columns, dnn_feature_columns=model.deep_columns)

我的 pycharm 调试器确认 model.wide_columns 和 model.deep_columns 在调用时已实例化/不为空。

现在这导致了一个“空”分类器。我不相信 DNNLinearCombinedClassifier 会从我的 job_dir 中获取任何模型内容。我会包括检查分类器的屏幕截图,同时在 model.py build_estimator() 中实例化(我也将它变成了一个变量 c,并且有一个断点)和 task.py 中的上述 c,但我由于我缺乏声誉,github 不允许 m。但区别很明显——例如,对于恢复的分类器,c->params->dnn_hidden_​​units 是空的,但使用原始分类器实例化 ([100,70,48,34])。

我为 job_dir(称为输出)包含一个 ls -R,请参见下面的 #c。

我为每次运行执行 rm -rf 输出,因此 job_dir 是干净的。

显然我在某个地方犯了错误,但由于缺乏洞察力,我无法看到在哪里。任何进一步的建议表示赞赏。

:-)

M。

---------------------- 控制台输出(更新) ---------- ----

一个。

湾。

C。

----------** 原帖**----------

--------我尝试过的东西------------

请参阅底部的代码,参考 1、2、3..

  1. 使用指向模型存储位置的 model_dir 参数重新实例化 DNNLinearCombinedClassifier。计划是运行分类器的预测方法。我无法让分类器反映保存的模型。

  2. 通过 saver.restore() 恢复模型。这有效,但我不明白如何从那里开始。由于缺乏对张量流的洞察力,我猜。

  3. 产生一些用于方法 1 的测试数据。张量的评估永远不会退出。如何评估输入批次,以便将其视为矩阵?

--------- 随附代码 -----------------

(此代码只是附加到 trainer/task.py 的末尾)

0 投票
0 回答
443 浏览

attributeerror - kenlm.Model'对象在谷歌云ML上运行时没有属性'score'

AttributeError:“kenlm.Model”对象没有属性“score”

0 投票
2 回答
1794 浏览

machine-learning - 如何将本地训练的 TensorFlow 图形文件部署到 Google Cloud Platform?

我遵循了 TensorFlow for Poets 教程,并用我自己的一些课程替换了现有的flower_photos。现在我有我的labels.txt文件并graph.pb保存在我的本地机器上。

我有没有办法将此预训练模型部署到 Google Cloud Platform?我一直在阅读文档,我能找到的只是关于如何从他们的 ML Engine 中创建、训练和部署模型的说明。但是我不想花钱在 Google 的服务器上训练我的模型,因为我只需要它们来托管我的模型,这样我就可以调用它来进行预测。

还有其他人遇到同样的问题吗?

0 投票
1 回答
1904 浏览

python - 谷歌云 - 计算引擎 VS 机器学习

有谁知道使用 Google Cloud Machine Learning 与 Google Cloud Engine 中的虚拟机实例相比有什么区别?

我在 Python 3 中使用 Keras,感觉 GML 的限制更大(使用 python 2.7,TensorFlow 的旧版本,必须遵循给定的结构......)。我想它们是在 GCE 中使用 GML 而不是 VM 的好处,但我想知道它们是什么。

0 投票
1 回答
87 浏览

google-cloud-ml-engine - 缺少本地预测的依赖项:没有名为 ml.prediction 的模块

跑步

引发No module named ml.prediction错误。

gcloud --version

谷歌云 SDK 155.0.0