问题标签 [google-cloud-ml-engine]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
gpu - Google Cloud ML Engine GPU 错误
我已经创建了几个使用 Google Cloud ML Engine 训练 CNN 的作业,每次作业都成功完成并出现 GPU 错误。打印的设备放置包括一些 GPU 活动,但在作业详细信息/利用率中没有 GPU 使用情况。
这是我用于创建作业的命令:
gcloud beta ml-engine jobs 提交训练 fei_test34 --job-dir gs://tfoutput/joboutput --package-path trainer --module-name=trainer.main --region europe-west1 --staging-bucket gs:/ /tfoutput --scale-tier BASIC_GPU -- --data=gs://crispdata/cars_128 --max_epochs=1 --train_log_dir=gs://tfoutput/joboutput --model=trainer.crisp_model_2x64_2xBN --validation=True - X
这是设备放置日志: log device placement 。GPU 错误: GPU 错误详情
更多信息:
当我在 Google Cloud ML Engine 上运行代码时,使用 Tesla K80 进行训练的平均速度为 8.2 示例/秒,不使用 GPU 的平均速度为 5.7 示例/秒,图像大小为 112x112。我在 Amazon AWS 上使用一个 GRID K520 获得了 130.4 示例/秒的相同代码。我认为使用 Tesla K80 应该会获得更快的速度。另外,我收到了昨天发布的 GPU 错误。此外,在 Compute Engine Quotas 中,我可以看到 CPU 的使用率 > 0%,但 GPU 的使用率仍然为 0%。我想知道GPU是否真的在工作。
我不熟悉云计算,所以不确定我是否提供了足够的信息。随时询问更多细节。
我只是尝试设置为complex_model_m_gpu,训练速度与一个GPU差不多(因为我的代码是针对一个GPU的),但日志中有更多信息。这是日志的副本:
我在本地成功打开了 CUDA 库 libcudnn.so.5
我在本地成功打开了CUDA库libcufft.so.8.0
我在本地成功打开了 CUDA 库 libcuda.so.1
我在本地成功打开了CUDA库libcurand.so.8.0
I 摘要名称 cross_entropy(raw) 是非法的;使用 cross_entropy__raw_ 代替。
I 摘要名称 total_loss(raw) 是非法的;使用 total_loss__raw_ 代替。
W TensorFlow 库未编译为使用 AVX2 指令,但这些指令可在您的机器上使用,并且可以加快 CPU 计算速度。
W TensorFlow 库未编译为使用 FMA 指令,但这些指令可在您的机器上使用,并且可以加快 CPU 计算速度。
我从 SysFS 读取的成功 NUMA 节点有负值(-1),但必须至少有一个 NUMA 节点,所以返回 NUMA 节点为零
我找到了具有以下属性的设备 0:
E名称:特斯拉K80
E 大调:3 小调:7 memoryClockRate (GHz) 0.8235
E pciBusID 0000:00:04.0
E 总内存:11.20GiB
E 可用内存:11.13GiB
W 在当前处于活动状态时创建上下文;现有:0x39ec240
我从 SysFS 读取的成功 NUMA 节点有负值(-1),但必须至少有一个 NUMA 节点,所以返回 NUMA 节点为零
我找到了具有以下属性的设备 1:
E名称:特斯拉K80
E 大调:3 小调:7 memoryClockRate (GHz) 0.8235
E pciBusID 0000:00:05.0
E 总内存:11.20GiB
E 可用内存:11.13GiB
W 在当前处于活动状态时创建上下文;现有:0x39f00b0
我从 SysFS 读取的成功 NUMA 节点有负值(-1),但必须至少有一个 NUMA 节点,所以返回 NUMA 节点为零
我找到了具有以下属性的设备 2:
E名称:特斯拉K80
E 大调:3 小调:7 memoryClockRate (GHz) 0.8235
E pciBusID 0000:00:06.0
E 总内存:11.20GiB
E 可用内存:11.13GiB
W 在当前处于活动状态时创建上下文;现有:0x3a148b0
我从 SysFS 读取的成功 NUMA 节点有负值(-1),但必须至少有一个 NUMA 节点,所以返回 NUMA 节点为零
我找到了具有以下属性的设备 3:
E名称:特斯拉K80
E 大调:3 小调:7 memoryClockRate (GHz) 0.8235
E pciBusID 0000:00:07.0
E 总内存:11.20GiB
E 可用内存:11.13GiB
I 设备序号 0 和 1 之间不支持对等访问
I 设备序号 0 和 2 之间不支持对等访问
I 设备序号 0 和 3 之间不支持对等访问
I 设备序号 1 和 0 之间不支持对等访问
I 设备序号 1 和 2 之间不支持对等访问
I 设备序号 1 和 3 之间不支持对等访问
I 设备序号 2 和 0 之间不支持对等访问
I 设备序号 2 和 1 之间不支持对等访问
I 设备序号 2 和 3 之间不支持对等访问
I 设备序号 3 和 0 之间不支持对等访问
I 设备序号 3 和 1 之间不支持对等访问
I 设备序号 3 和 2 之间不支持对等访问
我DMA:0 1 2 3
我 0: YNN
我 1: 尼恩
我 2: NNYN
我 3: 尼尼
I 创建 TensorFlow 设备 (/gpu:0) -> (设备: 0, 名称: Tesla K80, pci bus id: 0000:00:04.0)
I 创建 TensorFlow 设备 (/gpu:1) -> (设备: 1, 名称: Tesla K80, pci bus id: 0000:00:05.0)
I 创建 TensorFlow 设备 (/gpu:2) -> (设备: 2, 名称: Tesla K80, pci bus id: 0000:00:06.0)
I 创建 TensorFlow 设备 (/gpu:3) -> (设备: 3, 名称: Tesla K80, pci bus id: 0000:00:07.0)
I 创建 TensorFlow 设备 (/gpu:0) -> (设备: 0, 名称: Tesla K80, pci bus id: 0000:00:04.0)
I 创建 TensorFlow 设备 (/gpu:1) -> (设备: 1, 名称: Tesla K80, pci bus id: 0000:00:05.0)
I 创建 TensorFlow 设备 (/gpu:2) -> (设备: 2, 名称: Tesla K80, pci bus id: 0000:00:06.0)
I 创建 TensorFlow 设备 (/gpu:3) -> (设备: 3, 名称: Tesla K80, pci bus id: 0000:00:07.0)
我361
我桶=crisdata,文件夹=cars_128/train
我的路径 = gs://crispdata/cars_128/train
I Num 示例 = 240
我桶=crisdata,文件夹=cars_128/val
我的路径 = gs://crispdata/cars_128/val
I Num 示例 = 60
我 {'flop': False, 'learning_rate_decay_factor': 0.005, 'train_log_dir': 'gs://tfoutput/joboutput/20170411_144221', 'valid_score_path': '/home/ubuntu/tensorflow/cifar10/validation_score.csv', ' saturate_epoch':200,'test_score_path':'','max_tries':75,'max_epochs':10,'id':'20170411_144221','test_data_size':0,'memory_usage':0.3,'load_size':128, 'test_batch_size':10,'max_out_norm':1.0,'email_notify':假,'skip_training':假,'log_device_placement':假,'learning_rate_decay_schedule':'','cpu_only':假,'标准化':假,' num_epochs_per_decay':1,'zoom_out':0.0,'val_data_size':100,'learning_rate':0.1,'灰度':0.0,'train_data_size':250,'minimal_learning_rate':1e-05,'save_valid_scores':False,'train_batch_size':50,'rotation':0.0,'val_epoch_size':2,'数据':'gs://crispdata/cars_128','val_batch_size':50,'num_classes':2,'learning_rate_decay':'linear','random_seed':5,'num_threads':1,'num_gpus':1 , 'test_dir': '', 'shuffle_traindata': False, 'pca_jitter': 0.0, 'moving_average_decay': 1.0, 'sample_size': 128, 'job-dir': 'gs://tfoutput/joboutput', 'learning_algorithm ':'sgd','train_epoch_size':5,'model':'trainer.crisp_model_2x64_2xBN','验证':False,'塔名':'塔'}
I 在开始训练之前用 100 张 CIFAR 图像填充队列。这将需要几分钟。
我的名字:“火车”
我操作:“NoOp”
我输入:“^GradientDescent”
我输入:“^ExponentialMovingAverage”
我 128 128
I 2017-04-11 14:42:44.766116: epoch 0, loss = 0.71, lr = 0.100000 (5.3 examples/sec; 9.429 sec/batch)
I 2017-04-11 14:43:19.077377: epoch 1, loss = 0.53, lr = 0.099500 (8.1 examples/sec; 6.162 sec/batch)
我 2017-04-11 14:43:51.994015: epoch 2, loss = 0.40, lr = 0.099000 (7.7 examples/sec; 6.479 sec/batch)
I 2017-04-11 14:44:22.731741: epoch 3, loss = 0.39, lr = 0.098500 (8.2 examples/sec; 6.063 sec/batch)
我 2017-04-11 14:44:52.476539: epoch 4, loss = 0.24, lr = 0.098000 (8.4 examples/sec; 5.935 sec/batch)
I 2017-04-11 14:45:23.626918: epoch 5, loss = 0.29, lr = 0.097500 (8.1 examples/sec; 6.190 sec/batch)
I 2017-04-11 14:45:54.489606: epoch 6, loss = 0.56, lr = 0.097000 (8.6 examples/sec; 5.802 sec/batch)
I 2017-04-11 14:46:27.022781: epoch 7, loss = 0.12, lr = 0.096500 (6.4 examples/sec; 7.838 sec/batch)
我 2017-04-11 14:46:57.335240: epoch 8, loss = 0.25, lr = 0.096000 (8.7 examples/sec; 5.730 sec/batch)
I 2017-04-11 14:47:30.425189: epoch 9, loss = 0.11, lr = 0.095500 (7.8 examples/sec; 6.398 sec/batch)
这是否意味着 GPU 正在使用中?如果是,您知道为什么在执行相同代码时与 Grid K520 存在巨大的速度差异吗?
google-cloud-ml - google cloud ML 导入依赖时出错
在 gogle cloud ML 上提交作业时,我收到一个错误,主要训练 python 文件,即 task.py 无法从 util 文件夹中的 python 脚本导入函数。
一般我们写: from util.xyz import abc
这没有在 main task.py 中被调用
machine-learning - GPU 在数据并行训练的参数服务器上是否高效?
在数据并行训练上,我猜 GPU 实例对参数服务器不一定有效,因为参数服务器只保留值并且不运行任何计算,例如矩阵乘法。
因此,我认为以下Cloud ML Engine的示例配置(参数服务器使用 CPU,其他使用 GPU)具有良好的性价比:
是对的吗?
python - 尝试在云上运行我的 tensorflow 代码时出错
我正在尝试在 gcloud 上运行 tensorflow DNN 代码。https://github.com/mozilla/DeepSpeech
目前我已经成功地让培训师在本地运行
但是当我尝试将它推到云上时它似乎不起作用
错误出现在日志中:
模块因未能调用子进程命令而引发异常 '['pip', 'install', '--user', '--upgrade', '--force-reinstall', u'trainer-0.1.tar.gz ']' 返回非零退出状态 1。
python - 如何使用 LABEL_COLUMN 作为连续基列修改 tensorflow 示例“人口普查”?
在 tensorflow 的人口普查示例中, LABEL_COLUMN(income_bracket) 具有预定义的值[' <=50K', ' >50K']。它是一个分类基列。
1) 如何修改LABEL_COLUMN是具有浮点值的连续基列的 model.py?
2)可以更新这个程序以打印预测值吗?它仅返回准确率百分比。
python - scipy.misc.imresize 在 GCP ml 引擎中不起作用
我正在尝试将以下玩具片段作为 GCP ml-engine 中的作业提交:
作业在服务器上启动后出现以下错误:
它在本地完美运行,并且根据 Cloud-ML 文档,支持 scipy 包。显然这不是模块本身的问题,因为 import 语句没有给出任何错误。
google-cloud-ml - 在谷歌云 ML 上运行代码时权限被拒绝错误
尝试读取代码中的文件时出现错误。
文件未打开以供阅读”)PermissionDeniedError:文件未打开以供阅读
文件位于谷歌云 shell 上的 trainer 文件夹中。这就是我用 file_io.FileIO('/home/arpit_agrawal/DeepSpeech/trainer/data/spell/words.txt','r+') 作为 f: WORDS = set(单词(f.read()))
这是日志文件中的错误: WORDS = set(words(f.read())) File "/root/.local/lib/python2.7/site-packages/tensorflow/python/lib/io/file_io .py”,第 106 行,读取 self._preread_check() 文件“/root/.local/lib/python2.7/site-packages/tensorflow/python/lib/io/file_io.py”,第 70 行,在_preread_check“文件未打开以供阅读”)PermissionDeniedError:文件未打开以供阅读
ls -la for words.txt 的结果
scikit-learn - 在 Google Cloud Platform 中管理 scikit-learn 模型
我们正在尝试弄清楚如何在 GCP 中托管和运行我们现有的许多 scikit-learn 和 R 模型(原样)。似乎 ML Engine 非常特定于 Tensorflow。如果数据集太大而无法拉入 datalab,如何在 Google 云平台上训练 scikit-learn 模型并管理我的模型?我还能使用 ML Engine,还是大多数人采用不同的方法?
作为更新,我能够通过将 scikit-learn 模型作为训练作业提交给 ML Engine 来获得训练 scikit-learn 模型运行的 Python 脚本,但还没有找到托管腌制模型或将其用于预测的方法。
google-api - Google Cloud Machine Learning API Dot Net Client - 预测请求失败
我在 Google Cloud Platform 中部署了一个训练有素的模型 (CNN),我可以使用 Python 客户端库或gcloud
命令从中获取预测。
我现在正在尝试使用 Dot Net 客户端 v1.25 ( https://github.com/google/google-api-dotnet-client/tree/v1.25.0 ) 来获取预测,但{"error": "Missing "instances" field in request body."}
即使请求失败了我发送的 JSON 格式如下:
我可以使用该库使用该List()
方法获取可用模型的列表。
代码如下:
任何帮助表示赞赏,谢谢。