“google-cloud-ml-engine”的相关标签问题

0 投票

1 回答

673 浏览

gpu - Google Cloud ML Engine GPU 错误

我已经创建了几个使用 Google Cloud ML Engine 训练 CNN 的作业，每次作业都成功完成并出现 GPU 错误。打印的设备放置包括一些 GPU 活动，但在作业详细信息/利用率中没有 GPU 使用情况。

这是我用于创建作业的命令：

gcloud beta ml-engine jobs 提交训练 fei_test34 --job-dir gs://tfoutput/joboutput --package-path trainer --module-name=trainer.main --region europe-west1 --staging-bucket gs:/ /tfoutput --scale-tier BASIC_GPU -- --data=gs://crispdata/cars_128 --max_epochs=1 --train_log_dir=gs://tfoutput/joboutput --model=trainer.crisp_model_2x64_2xBN --validation=True - X

这是设备放置日志： log device placement 。GPU 错误： GPU 错误详情

更多信息：

当我在 Google Cloud ML Engine 上运行代码时，使用 Tesla K80 进行训练的平均速度为 8.2 示例/秒，不使用 GPU 的平均速度为 5.7 示例/秒，图像大小为 112x112。我在 Amazon AWS 上使用一个 GRID K520 获得了 130.4 示例/秒的相同代码。我认为使用 Tesla K80 应该会获得更快的速度。另外，我收到了昨天发布的 GPU 错误。此外，在 Compute Engine Quotas 中，我可以看到 CPU 的使用率 > 0%，但 GPU 的使用率仍然为 0%。我想知道GPU是否真的在工作。

我不熟悉云计算，所以不确定我是否提供了足够的信息。随时询问更多细节。

我只是尝试设置为complex_model_m_gpu，训练速度与一个GPU差不多（因为我的代码是针对一个GPU的），但日志中有更多信息。这是日志的副本：

我在本地成功打开了 CUDA 库 libcudnn.so.5

我在本地成功打开了CUDA库libcufft.so.8.0

我在本地成功打开了 CUDA 库 libcuda.so.1

我在本地成功打开了CUDA库libcurand.so.8.0

I 摘要名称 cross_entropy(raw) 是非法的；使用 cross_entropy__raw_ 代替。

I 摘要名称 total_loss(raw) 是非法的；使用 total_loss__raw_ 代替。

W TensorFlow 库未编译为使用 AVX2 指令，但这些指令可在您的机器上使用，并且可以加快 CPU 计算速度。

W TensorFlow 库未编译为使用 FMA 指令，但这些指令可在您的机器上使用，并且可以加快 CPU 计算速度。

我从 SysFS 读取的成功 NUMA 节点有负值（-1），但必须至少有一个 NUMA 节点，所以返回 NUMA 节点为零

我找到了具有以下属性的设备 0：

E名称：特斯拉K80

E 大调：3 小调：7 memoryClockRate (GHz) 0.8235

E pciBusID 0000:00:04.0

E 总内存：11.20GiB

E 可用内存：11.13GiB

W 在当前处于活动状态时创建上下文；现有：0x39ec240

我从 SysFS 读取的成功 NUMA 节点有负值（-1），但必须至少有一个 NUMA 节点，所以返回 NUMA 节点为零

我找到了具有以下属性的设备 1：

E名称：特斯拉K80

E 大调：3 小调：7 memoryClockRate (GHz) 0.8235

E pciBusID 0000:00:05.0

E 总内存：11.20GiB

E 可用内存：11.13GiB

W 在当前处于活动状态时创建上下文；现有：0x39f00b0

我从 SysFS 读取的成功 NUMA 节点有负值（-1），但必须至少有一个 NUMA 节点，所以返回 NUMA 节点为零

我找到了具有以下属性的设备 2：

E名称：特斯拉K80

E 大调：3 小调：7 memoryClockRate (GHz) 0.8235

E pciBusID 0000:00:06.0

E 总内存：11.20GiB

E 可用内存：11.13GiB

W 在当前处于活动状态时创建上下文；现有：0x3a148b0

我从 SysFS 读取的成功 NUMA 节点有负值（-1），但必须至少有一个 NUMA 节点，所以返回 NUMA 节点为零

我找到了具有以下属性的设备 3：

E名称：特斯拉K80

E 大调：3 小调：7 memoryClockRate (GHz) 0.8235

E pciBusID 0000:00:07.0

E 总内存：11.20GiB

E 可用内存：11.13GiB

I 设备序号 0 和 1 之间不支持对等访问

I 设备序号 0 和 2 之间不支持对等访问

I 设备序号 0 和 3 之间不支持对等访问

I 设备序号 1 和 0 之间不支持对等访问

I 设备序号 1 和 2 之间不支持对等访问

I 设备序号 1 和 3 之间不支持对等访问

I 设备序号 2 和 0 之间不支持对等访问

I 设备序号 2 和 1 之间不支持对等访问

I 设备序号 2 和 3 之间不支持对等访问

I 设备序号 3 和 0 之间不支持对等访问

I 设备序号 3 和 1 之间不支持对等访问

I 设备序号 3 和 2 之间不支持对等访问

我DMA：0 1 2 3

我 0: YNN

我 1: 尼恩

我 2: NNYN

我 3: 尼尼

I 创建 TensorFlow 设备 (/gpu:0) -> (设备: 0, 名称: Tesla K80, pci bus id: 0000:00:04.0)

I 创建 TensorFlow 设备 (/gpu:1) -> (设备: 1, 名称: Tesla K80, pci bus id: 0000:00:05.0)

I 创建 TensorFlow 设备 (/gpu:2) -> (设备: 2, 名称: Tesla K80, pci bus id: 0000:00:06.0)

I 创建 TensorFlow 设备 (/gpu:3) -> (设备: 3, 名称: Tesla K80, pci bus id: 0000:00:07.0)

I 创建 TensorFlow 设备 (/gpu:0) -> (设备: 0, 名称: Tesla K80, pci bus id: 0000:00:04.0)

I 创建 TensorFlow 设备 (/gpu:1) -> (设备: 1, 名称: Tesla K80, pci bus id: 0000:00:05.0)

I 创建 TensorFlow 设备 (/gpu:2) -> (设备: 2, 名称: Tesla K80, pci bus id: 0000:00:06.0)

I 创建 TensorFlow 设备 (/gpu:3) -> (设备: 3, 名称: Tesla K80, pci bus id: 0000:00:07.0)

我361

我桶=crisdata，文件夹=cars_128/train

我的路径 = gs://crispdata/cars_128/train

I Num 示例 = 240

我桶=crisdata，文件夹=cars_128/val

我的路径 = gs://crispdata/cars_128/val

I Num 示例 = 60

我 {'flop': False, 'learning_rate_decay_factor': 0.005, 'train_log_dir': 'gs://tfoutput/joboutput/20170411_144221', 'valid_score_path': '/home/ubuntu/tensorflow/cifar10/validation_score.csv', ' saturate_epoch'：200，'test_score_path'：''，'max_tries'：75，'max_epochs'：10，'id'：'20170411_144221'，'test_data_size'：0，'memory_usage'：0.3，'load_size'：128， 'test_batch_size'：10，'max_out_norm'：1.0，'email_notify'：假，'skip_training'：假，'log_device_placement'：假，'learning_rate_decay_schedule'：''，'cpu_only'：假，'标准化'：假，' num_epochs_per_decay'：1，'zoom_out'：0.0，'val_data_size'：100，'learning_rate'：0.1，'灰度'：0.0，'train_data_size'：250，'minimal_learning_rate'：1e-05，'save_valid_scores'：False，'train_batch_size'：50，'rotation'：0.0，'val_epoch_size'：2，'数据'：'gs://crispdata/cars_128'，'val_batch_size'：50，'num_classes'：2，'learning_rate_decay'：'linear'，'random_seed'：5，'num_threads'：1，'num_gpus'：1 , 'test_dir': '', 'shuffle_traindata': False, 'pca_jitter': 0.0, 'moving_average_decay': 1.0, 'sample_size': 128, 'job-dir': 'gs://tfoutput/joboutput', 'learning_algorithm '：'sgd'，'train_epoch_size'：5，'model'：'trainer.crisp_model_2x64_2xBN'，'验证'：False，'塔名'：'塔'}

I 在开始训练之前用 100 张 CIFAR 图像填充队列。这将需要几分钟。

我的名字：“火车”

我操作：“NoOp”

我输入：“^GradientDescent”

我输入：“^ExponentialMovingAverage”

我 128 128

I 2017-04-11 14:42:44.766116: epoch 0, loss = 0.71, lr = 0.100000 (5.3 examples/sec; 9.429 sec/batch)

I 2017-04-11 14:43:19.077377: epoch 1, loss = 0.53, lr = 0.099500 (8.1 examples/sec; 6.162 sec/batch)

我 2017-04-11 14:43:51.994015: epoch 2, loss = 0.40, lr = 0.099000 (7.7 examples/sec; 6.479 sec/batch)

I 2017-04-11 14:44:22.731741: epoch 3, loss = 0.39, lr = 0.098500 (8.2 examples/sec; 6.063 sec/batch)

我 2017-04-11 14:44:52.476539: epoch 4, loss = 0.24, lr = 0.098000 (8.4 examples/sec; 5.935 sec/batch)

I 2017-04-11 14:45:23.626918: epoch 5, loss = 0.29, lr = 0.097500 (8.1 examples/sec; 6.190 sec/batch)

I 2017-04-11 14:45:54.489606: epoch 6, loss = 0.56, lr = 0.097000 (8.6 examples/sec; 5.802 sec/batch)

I 2017-04-11 14:46:27.022781: epoch 7, loss = 0.12, lr = 0.096500 (6.4 examples/sec; 7.838 sec/batch)

我 2017-04-11 14:46:57.335240: epoch 8, loss = 0.25, lr = 0.096000 (8.7 examples/sec; 5.730 sec/batch)

I 2017-04-11 14:47:30.425189: epoch 9, loss = 0.11, lr = 0.095500 (7.8 examples/sec; 6.398 sec/batch)

这是否意味着 GPU 正在使用中？如果是，您知道为什么在执行相同代码时与 Grid K520 存在巨大的速度差异吗？

gpu google-cloud-ml-engine

2017-04-10T12:57:05.077

0 投票

1 回答

101 浏览

google-cloud-ml - google cloud ML 导入依赖时出错

在 gogle cloud ML 上提交作业时，我收到一个错误，主要训练 python 文件，即 task.py 无法从 util 文件夹中的 python 脚本导入函数。

一般我们写： from util.xyz import abc

这没有在 main task.py 中被调用

google-cloud-ml google-cloud-ml-engine

2017-04-12T06:09:04.397

0 投票

1 回答

406 浏览

machine-learning - GPU 在数据并行训练的参数服务器上是否高效？

在数据并行训练上，我猜 GPU 实例对参数服务器不一定有效，因为参数服务器只保留值并且不运行任何计算，例如矩阵乘法。

因此，我认为以下Cloud ML Engine的示例配置（参数服务器使用 CPU，其他使用 GPU）具有良好的性价比：

是对的吗？

machine-learning tensorflow google-cloud-ml google-cloud-ml-engine

2017-04-14T06:07:02.220

0 投票

0 回答

331 浏览

python - 尝试在云上运行我的 tensorflow 代码时出错

我正在尝试在 gcloud 上运行 tensorflow DNN 代码。https://github.com/mozilla/DeepSpeech

目前我已经成功地让培训师在本地运行

但是当我尝试将它推到云上时它似乎不起作用

错误出现在日志中：

模块因未能调用子进程命令而引发异常 '['pip', 'install', '--user', '--upgrade', '--force-reinstall', u'trainer-0.1.tar.gz ']' 返回非零退出状态 1。

python machine-learning google-cloud-ml-engine

2017-04-14T20:08:40.800

0 投票

1 回答

332 浏览

python - 如何使用 LABEL_COLUMN 作为连续基列修改 tensorflow 示例“人口普查”？

在 tensorflow 的人口普查示例中， LABEL_COLUMN(income_bracket) 具有预定义的值[' <=50K', ' >50K']。它是一个分类基列。

1) 如何修改LABEL_COLUMN是具有浮点值的连续基列的 model.py？

2）可以更新这个程序以打印预测值吗？它仅返回准确率百分比。

python machine-learning tensorflow google-cloud-ml-engine

2017-04-17T14:00:31.613

0 投票

2 回答

1866 浏览

python - scipy.misc.imresize 在 GCP ml 引擎中不起作用

我正在尝试将以下玩具片段作为 GCP ml-engine 中的作业提交：

作业在服务器上启动后出现以下错误：

它在本地完美运行，并且根据 Cloud-ML 文档，支持 scipy 包。显然这不是模块本身的问题，因为 import 语句没有给出任何错误。

python scipy google-cloud-ml google-cloud-ml-engine

2017-04-17T14:06:36.690

0 投票

1 回答

555 浏览

google-cloud-ml - 在谷歌云 ML 上运行代码时权限被拒绝错误

尝试读取代码中的文件时出现错误。

文件未打开以供阅读”）PermissionDeniedError：文件未打开以供阅读

文件位于谷歌云 shell 上的 trainer 文件夹中。这就是我用 file_io.FileIO('/home/arpit_agrawal/DeepSpeech/trainer/data/‌spell/words.txt','r+‌') 作为 f: WORDS = set(单词（f.read（）））

这是日志文件中的错误： WORDS = set(words(f.read())) File "/root/.local/lib/python2.7/site-packages/tensorflow/python/‌lib/io/file_io .py”，第 106 行，读取 self._preread_check() 文件“/root/.local/lib/python2.7/site-packages/tensorflow/python/‌lib/io/file_io.py”，第 70 行，在_preread_check“文件未打开以供阅读”）PermissionDeniedError：文件未打开以供阅读

ls -la for words.txt 的结果

google-cloud-ml google-cloud-ml-engine

2017-04-18T07:42:10.893

0 投票

3 回答

2132 浏览

scikit-learn - 在 Google Cloud Platform 中管理 scikit-learn 模型

我们正在尝试弄清楚如何在 GCP 中托管和运行我们现有的许多 scikit-learn 和 R 模型（原样）。似乎 ML Engine 非常特定于 Tensorflow。如果数据集太大而无法拉入 datalab，如何在 Google 云平台上训练 scikit-learn 模型并管理我的模型？我还能使用 ML Engine，还是大多数人采用不同的方法？

作为更新，我能够通过将 scikit-learn 模型作为训练作业提交给 ML Engine 来获得训练 scikit-learn 模型运行的 Python 脚本，但还没有找到托管腌制模型或将其用于预测的方法。

scikit-learn google-cloud-platform google-cloud-ml-engine

2017-04-21T03:28:23.623

0 投票

1 回答

87 浏览

google-cloud-ml - 作业未生成 /export 目录

我正在按照指南部署先前生成作业的模型：

当我看到输出路径的内容时，我没有看到“导出”目录，只有这个：

我忘了任何步骤吗？

google-cloud-ml google-cloud-ml-engine

2017-04-21T17:31:32.753

0 投票

1 回答

379 浏览

google-api - Google Cloud Machine Learning API Dot Net Client - 预测请求失败

我在 Google Cloud Platform 中部署了一个训练有素的模型 (CNN)，我可以使用 Python 客户端库或gcloud命令从中获取预测。

我现在正在尝试使用 Dot Net 客户端 v1.25 ( https://github.com/google/google-api-dotnet-client/tree/v1.25.0 ) 来获取预测，但{"error": "Missing "instances" field in request body."}即使请求失败了我发送的 JSON 格式如下：

我可以使用该库使用该List()方法获取可用模型的列表。

代码如下：

任何帮助表示赞赏，谢谢。

google-api google-api-dotnet-client google-cloud-ml google-cloud-ml-engine

2017-04-26T15:29:30.040

问题标签 [google-cloud-ml-engine]

Reference