问题标签 [google-cloud-ml-engine]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-platform - 用户没有所需的权限 ml.versions.predict 对资源(Cloud ML Engine)
我有一个服务帐户,我已授予查看者角色,并已下载凭据 json 文件并为其设置正确的环境变量。我正在尝试在这里运行示例:
但是,这给了我一个 403 和错误The user doesn't have the required permission ml.versions.predict on the resource projects/project/models/model/versions/version
。我不确定我做错了什么 - 我正在为凭据设置正确的环境变量,根据他们的文档,服务帐户只需要查看者角色即可访问此端点。我做错了什么?
machine-learning - Tensorflow、google cloud ML:如何使用之前的检查点来训练新图像?
我正在使用 Google Cloud Machine Learning 上的图像分类和 Tensorflow。每次我训练一个新项目时,它都能完美运行,但每次我对我的数据集进行更新(将新图像上传到数据库)时,我都必须重新训练所有内容。有没有办法从最后一个检查点重新训练,我应该如何在云中做到这一点?
感谢大家!
tcmalloc - 如何在 Google Cloud ML Engine 上使用 TCMalloc
如何在 Google Cloud ML Engine 上使用 TCMalloc?或者除了 TCMalloc 之外,还有没有其他方法可以解决 ML Engine 上的内存泄漏问题?
完成图表似乎没有帮助。
训练 73 个 epoch 后,我出现了内存不足错误。这是训练日志的一部分:
11:26:33.707 作业失败。
11:26:20.949 完成拆除 TensorFlow。
11:25:18.568 副本 master 0 内存不足并以非零状态 247 退出。要了解有关您的作业退出原因的更多信息,请查看日志
11:25:07.785 清理完毕。
11:25:07.785 模块完成;打扫干净。
11:25:07.783 模块因未能调用子进程命令而引发异常命令 '['python', '-m', u'trainer.main', u'--data=gs://', u'-- train_log_dir=gs://tfoutput/joboutput', u'--model=trainer.crisp_model', u'--num_threads=32', u'--memory_usage=0.8', u'--max_out_norm=1', u '--train_batch_size=64', u'--sample_size=112', u'--num_gpus=4', u'--allow_growth=True', u'--weight_loss_by_train_size=True', u'-x',返回非零退出状态 -9。
11:23:08.853 PNG 警告:扩展块时超出大小限制
11:18:18.474 纪元 58.0:准确度 = 0.9109
11:17:14.851 2017-05-17 10:17:14.851024: epoch 58, loss = 0.12, lr = 0.085500 (228.9 examples/sec; 0.280 sec/batch)
11:15:39.532 PNG 警告:扩展块时超出大小限制
11:10:23.855 PoolAllocator:372618242个get请求后,put_count=372618151 evicted_count=475000 eviction_rate=0.00127476,不满足分配率=0.00127518
11:05:32.928 PNG 警告:扩展块时超出大小限制
10:59:26.006 纪元 57.0:准确度 = 0.8868
10:58:24.117 2017-05-17 09:58:24.117444: epoch 57, loss = 0.23, lr = 0.085750 (282.2 examples/sec; 0.227 sec/batch)
10:54:37.440 PNG 警告:扩展块时超出大小限制
10:53:30.323 PoolAllocator:366350973个get请求后,put_count=366350992 evicted_count=465000 eviction_rate=0.00126927和不满足分配率=0.0012694
10:51:51.417 PNG 警告:扩展块时超出大小限制
10:40:43.811 纪元 56.0:准确度 = 0.7897
10:39:41.308 2017-05-17 09:39:41.308624: epoch 56, loss = 0.06, lr = 0.086000 (273.8 examples/sec; 0.234 sec/batch)
10:38:14.522 PoolAllocator: 360630699 次获取请求后,put_count=360630659 evicted_count=455000 eviction_rate=0.00126168 和不满足分配率=0.00126197
10:36:10.480 PNG 警告:扩展块时超出大小限制
10:21:50.715 纪元 55.0:准确度 = 0.9175
10:20:51.801 PoolAllocator:354197216个get请求后,put_count=354197255 evicted_count=445000 eviction_rate=0.00125636和不满足分配率=0.00125644
10:20:49.815 2017-05-17 09:20:49.815251: epoch 55, loss = 0.25, lr = 0.086250 (285.6 examples/sec; 0.224 sec/batch)
10:02:56.637 纪元 54.0:准确度 = 0.9191
10:01:57.367 2017-05-17 09:01:57.367369: epoch 54, loss = 0.09, lr = 0.086500 (256.5 examples/sec; 0.249 sec/batch)
10:01:42.365 PoolAllocator:347107694个get请求后,put_count=347107646 evicted_count=435000 eviction_rate=0.00125321和不满足分配率=0.00125354
09:45:56.116 PNG 警告:扩展块时超出大小限制
09:44:12.698 纪元 53.0:准确度 = 0.9039
09:43:09.888 2017-05-17 08:43:09.888202: epoch 53, loss = 0.10, lr = 0.086750 (307.0 examples/sec; 0.208 sec/batch)
09:41:48.672 PoolAllocator:339747205 次获取请求后,put_count=339747210 evicted_count=425000 eviction_rate=0.00125093 和不满意的分配率=0.00125111
09:36:14.085 PNG 警告:扩展块时超出大小限制
09:35:11.686 PNG 警告:扩展块时超出大小限制
09:34:45.011 PNG 警告:扩展块时超出大小限制
09:31:03.212 PNG 警告:扩展块时超出大小限制
09:28:40.116 PoolAllocator:335014430 次获取请求后,put_count=335014342 evicted_count=415000 eviction_rate=0.00123875 和不满足分配率=0.00123921
09:27:38.374 PNG 警告:扩展块时超出大小限制
09:25:23.913 PNG 警告:扩展块时超出大小限制
09:25:16.065 纪元 52.0:准确度 = 0.9313
09:24:16.963 2017-05-17 08:24:16.962930: epoch 52,损失 = 0.11,lr = 0.087000(278.7 示例/秒;0.230 秒/批次)
09:17:48.417 PNG 警告:扩展块时超出大小限制
09:13:34.740 PoolAllocator: 329380055 次获取请求后,put_count=329379978 evicted_count=405000 eviction_rate=0.00122958 和不满足分配率=0.00123001
09:06:09.948 更新纪元 51.0:准确度 = 0.9357
09:06:09.948 纪元 51.0:准确度 = 0.9357
09:05:09.575 2017-05-17 08:05:09.575641: epoch 51,损失 = 0.11,lr = 0.087250(248.4 示例/秒;0.258 秒/批次)
08:59:17.735 PNG 警告:扩展块时超出大小限制
08:55:58.605 PoolAllocator:322904781个get请求后,put_count=322904714 evicted_count=395000 eviction_rate=0.00122327和不满足分配率=0.00122368
08:48:46.322 PNG 警告:扩展块时超出大小限制
08:47:27.936 纪元 50.0:准确度 = 0.9197
08:46:29.370 2017-05-17 07:46:29.370135: epoch 50, loss = 0.20, lr = 0.087500 (253.2 examples/sec; 0.253 sec/batch)
我已经尝试在本地机器上使用 TCMalloc 进行培训,但仍然存在内存泄漏,但少于不使用它。
google-api-client - 为什么 Google Client API 库而不是 Google Cloud 客户端库中存在 ml-engine 函数?
https://cloud.google.com/ml-engine/docs/tutorials/python-guide说谷歌客户端 API 库中存在 ml-engine 库。既然谷歌云客户端库是为云应用量身定做的,它应该没有吧?
machine-learning - 为什么我在尝试设置 Datalab 并在 Cloud ML Engine 上进行图像分类时收到“加载笔记本时出错”错误?
我正在关注这里的教程:
它声称它将允许我在谷歌云上进行图像分类。我按照说明进行操作,但是当我进入“启动数据实验室笔记本”的第 4 步时。它告诉我在 Google Cloud DataLab 中打开 docs 文件夹,然后打开名为:Hello World.ipynb 的文件。
当我打开这个文件时,我得到一个非常奇怪的错误,我在谷歌上找不到任何东西。错误是一个模式,它说:
没有代码从文件加载。有没有搞错???我究竟做错了什么?
tensorflow - google cloud ml 人口普查样本上的本地预测
我在本地和云端都成功地训练了我的https://github.com/GoogleCloudPlatform/cloudml-samples/tree/master/census模型/实验。而且我能够在云中部署我的示例并运行预测。
但是,如果我想在本地运行我的预测——而不是在云端——我该怎么做呢?
我是新手,但我尝试了几种幼稚的方法,但都失败了,请参阅下面的 3 个具体方法。
欢迎任何提示或引用片段。
:-)
M。
** 原帖中关于方法 #1 的更新**
如果我包括单行;
c = tf.contrib.learn.DNNLinearCombinedClassifier(model_dir=job_dir)
我收到一个错误,请参阅下面的错误 #a。
如果我天真地编辑调用以包含缺少的参数,则构造函数可以工作,但是如果我调用 predict 失败并出现错误 #b,请参见下文。我将 model.py 中的 wide_columns 和 deep_columns 设为全局,并将上面的行修改为
c = tf.contrib.learn.DNNLinearCombinedClassifier(model_dir=job_dir, linear_feature_columns=model.wide_columns, dnn_feature_columns=model.deep_columns)
我的 pycharm 调试器确认 model.wide_columns 和 model.deep_columns 在调用时已实例化/不为空。
现在这导致了一个“空”分类器。我不相信 DNNLinearCombinedClassifier 会从我的 job_dir 中获取任何模型内容。我会包括检查分类器的屏幕截图,同时在 model.py build_estimator() 中实例化(我也将它变成了一个变量 c,并且有一个断点)和 task.py 中的上述 c,但我由于我缺乏声誉,github 不允许 m。但区别很明显——例如,对于恢复的分类器,c->params->dnn_hidden_units 是空的,但使用原始分类器实例化 ([100,70,48,34])。
我为 job_dir(称为输出)包含一个 ls -R,请参见下面的 #c。
我为每次运行执行 rm -rf 输出,因此 job_dir 是干净的。
显然我在某个地方犯了错误,但由于缺乏洞察力,我无法看到在哪里。任何进一步的建议表示赞赏。
:-)
M。
---------------------- 控制台输出(更新) ---------- ----
一个。
湾。
C。
----------** 原帖**----------
--------我尝试过的东西------------
请参阅底部的代码,参考 1、2、3..
使用指向模型存储位置的 model_dir 参数重新实例化 DNNLinearCombinedClassifier。计划是运行分类器的预测方法。我无法让分类器反映保存的模型。
通过 saver.restore() 恢复模型。这有效,但我不明白如何从那里开始。由于缺乏对张量流的洞察力,我猜。
产生一些用于方法 1 的测试数据。张量的评估永远不会退出。如何评估输入批次,以便将其视为矩阵?
--------- 随附代码 -----------------
(此代码只是附加到 trainer/task.py 的末尾)
attributeerror - kenlm.Model'对象在谷歌云ML上运行时没有属性'score'
AttributeError:“kenlm.Model”对象没有属性“score”
machine-learning - 如何将本地训练的 TensorFlow 图形文件部署到 Google Cloud Platform?
我遵循了 TensorFlow for Poets 教程,并用我自己的一些课程替换了现有的flower_photos。现在我有我的labels.txt
文件并graph.pb
保存在我的本地机器上。
我有没有办法将此预训练模型部署到 Google Cloud Platform?我一直在阅读文档,我能找到的只是关于如何从他们的 ML Engine 中创建、训练和部署模型的说明。但是我不想花钱在 Google 的服务器上训练我的模型,因为我只需要它们来托管我的模型,这样我就可以调用它来进行预测。
还有其他人遇到同样的问题吗?
python - 谷歌云 - 计算引擎 VS 机器学习
有谁知道使用 Google Cloud Machine Learning 与 Google Cloud Engine 中的虚拟机实例相比有什么区别?
我在 Python 3 中使用 Keras,感觉 GML 的限制更大(使用 python 2.7,TensorFlow 的旧版本,必须遵循给定的结构......)。我想它们是在 GCE 中使用 GML 而不是 VM 的好处,但我想知道它们是什么。
google-cloud-ml-engine - 缺少本地预测的依赖项:没有名为 ml.prediction 的模块
跑步
引发No module named ml.prediction
错误。
gcloud --version
谷歌云 SDK 155.0.0