0 投票

2 回答

303 浏览

tensorflow - 云计算虚拟机与 AI 平台的性能差异

我有一个 GCP 云计算 VM，它是一个n1-standard-164 个 P100 GPU，以及一个用于存储数据的固态驱动器。我将其称为“VM”。

我之前使用虚拟机来训练基于 tensorflow 的 CNN。我想从这个转向使用 AI Platform，这样我就可以同时运行多个作业。但是我遇到了一些问题。

问题

当在 VM 上运行训练时，我可以将批量大小设置为 400，完成一个 epoch 的标准时间约为 25 分钟。

当训练在一个complex_model_m_p100我认为相当于 VM 的 AI 平台机器上运行时，我可以设置最大批量大小为 128，完成一个 epoch 的标准时间是 1 小时 40 分钟。

差异：VM 与 AI 平台

VM 使用 TF1.12，AI Platform 使用 TF1.15。因此，GPU 驱动程序存在差异（CUDA 9 与 CUDA 10）。
VM配备了固态驱动器，我认为AI平台机器不是这种情况。

我想了解减少批量大小的原因，并将 AI Platform 上的 epoch 时间减少到与 Glamdring 相当的水平。有没有其他人遇到过这个问题？我是否在正确类型的 AI Platform 机器上运行？任何的建议都受欢迎！

2020-02-26T10:20:58.947

0 投票

1 回答

2741 浏览

google-cloud-platform - 如何在谷歌云 AI 平台中增加 jupyter notebook 最大缓冲区大小？

我在谷歌云平台上运行 Jupyter 笔记本。我有一个很大的pickeld Dataframe 可供阅读。由于 Jupyter 笔记本的默认缓冲区大小约为 0.5 Gb，因此它会崩溃并重新启动内核。我已经在 Compute Engine 中添加NotebookApp.max_buffer_size='my desired value'了jupyter_notebook_config.py，但仍然存在问题。

google-cloud-platform jupyter-notebook google-cloud-ml gcp-ai-platform-notebook gcp-ai-platform-training

2020-02-27T14:39:50.973

0 投票

1 回答

242 浏览

google-cloud-platform - 无法将预训练模型上传到 AI Platform

我已经训练了一个随机森林分类器并将模型作为 joblib 文件存储在谷歌存储中。使用带有此 model.joblib 文件的 scikit-learn 框架创建版本时，ai-platform 会出错。错误就像 - ：

该模型为 283Mb - 完全在允许的大小限制内。

google-cloud-platform scikit-learn random-forest joblib gcp-ai-platform-training

2020-02-28T10:35:37.017

0 投票

1 回答

301 浏览

google-cloud-platform - 使用 google ai-platform 请求将简单日志写入云存储桶

在 GCP ai-platform 中，除了保存 tf.keras 模型外，我还尝试将简单日志写入文件。但是，使用tf.saved_model.save作品保存模型，而写入 .txt 使用with open(file) as out:不会并会引发以下问题：

谁能解释 ai-platform 如何发现文件路径有什么区别？

我的请求基本上看起来像这样（请参阅https://cloud.google.com/ai-platform/docs/getting-started-keras）

trainer/task.py 脚本的相关部分是这样的：

google-cloud-platform google-cloud-ml gcp-ai-platform-training

2020-03-07T19:16:52.640

0 投票

1 回答

37 浏览

google-cloud-platform - 手动安装 GCP VM 模块中的所有内容

我是云新手，仍在学习 GCP，在学习不同模块的同时，我在 2 个月内用尽了 GCP 的几乎所有免费学分。GCP 很棒，它提供了很多东西来简化开发和维护过程。

但我意识到使用不同的模块让我付出了很多。所以我想知道我是否可以拥有一个大的 VM 盒子，我自己安装 MySQL、Docker 和 Java 和 React 所需的组件，我可以在不使用额外模块的情况下实现几乎我想要的。我对吗？

我可以通过更改 API 端口来使用同一个 VM 来托管多个站点，还是我需要为此设置不同的盒子？

google-cloud-platform gcp-ai-platform-training

2020-03-09T03:55:06.790

0 投票

0 回答

78 浏览

google-cloud-platform - AI 平台内置图像分类算法不会在训练结束时导出模型

我一直在使用新的AI 平台内置图像分类算法进行训练。通常，尽管训练作业成功完成，但保存的模型不会输出到 gs 作业目录。日志中没有错误。日志中唯一表明有问题的迹象是缺少以下几行：

执行最佳模型导出

SavedModel 写入：jobDirSubDir /saved_model.pb

将最佳 SavedModel 从jobDirSubDir导出到jobDirSubDir /model

最终评估完成后，该工作就完成了。

任何有关如何解决此内置算法的提示将不胜感激。或者，如果它是开源的，请指出正确的 repo。

谢谢

google-cloud-platform google-cloud-ml gcp-ai-platform-training

2020-03-16T08:48:53.143

0 投票

0 回答

113 浏览

google-cloud-platform - 似乎无法在我的自定义预测器类代码中导入我的 Pytorch 模型架构类，以便在 AI Platform 上进行自定义管道部署

我在 AI Platform Serving 上部署简单的 Pytorch 训练模型时遇到问题。

这是错误：

这是自定义预测类：

我尝试更改代码并保存模型格式（.pkl、.pth、.pt），但似乎没有任何效果。我还尝试将我的模型类包含在与我的自定义预测器类相同的 .py 脚本中，但这也不起作用。pip-installable 包包含所有必要的代码，即模型代码以及自定义预测器代码。感谢帮助！

google-cloud-platform deployment google-cloud-ml gcp-ai-platform-notebook gcp-ai-platform-training

2020-03-17T19:05:57.417

0 投票

2 回答

1357 浏览

python - 从 Google Cloud Python 作业访问 Google Storage 上的文件

我正在大致按照教程在 Google Cloud AI 平台上训练 TensorFlow 估计器。

我想访问一个包含我的训练和评估数据的目录，为此我将我的数据文件递归复制到 Google 存储，如下所示：

这工作正常，并gsutil ls gs://name-of-my-bucket/data正确返回：

但是，从 Python 脚本调用os.listdir(data_dir)会引发我迄今为止尝试过FileNotFoundError的任何值，包括and 。为什么？data_dir'data/''name-of-my-bucket/data/'

我知道我的 Python 脚本正在从目录执行。~~/root/.local/lib/python3.7/site-packages/trainer/~~ /user_dir

出现问题的 Python 代码（编辑）

这是出现错误的行之前的代码，直接来自__main__我的 Python 脚本部分：

这是出现错误的代码行（在我上面报告的代码行之后立即调用的单独函数的第一行）：

日志（编辑）

我的这项工作的日志是一个信息列表（加上 5 个与 TensorFlow 相关的弃用警告），然后是来自任务的错误：master-replica-0

...随后是来自同一任务的另一个错误（从我的 Python 命令报告非零退出状态），然后是关于清理的两个信息，最后是来自任务的错误：service

python google-cloud-platform google-cloud-storage gcp-ai-platform-training

2020-03-30T07:52:03.420

0 投票

0 回答

103 浏览

google-cloud-platform - 在 AI Platform 中使用 `capture_tpu_profile`

我们正在尝试在 AI Platform 上运行我们的训练任务时捕获 TPU 分析数据。按照本教程。从我们的模型输出中获取所有需要的信息，例如 TPU 名称。

配置.yaml：

任务提交命令：

当我们尝试capture_tpu_profile使用模型从 master 获得的名称运行时：

我们得到了这个错误：

在 AI Platform 中提供时，似乎 TPU 设备未连接到我们的项目，但是连接到什么项目，我们可以访问此类 TPU 以捕获其配置文件吗？

google-cloud-platform tpu gcp-ai-platform-training

2020-03-30T12:43:16.073

0 投票

2 回答

380 浏览

tensorflow - ai-platform + gsutil 权限错误：AttributeError：“GFile”对象没有“可读”属性

读取从 gcs 传输的 csv 文件 2020 年 3 月 13 日时开始遇到错误。下载后检查ai平台上的文件权限

相关文档：https ://www.tensorflow.org/api_docs/python/tf/io/gfile/GFile （看起来可读属性已被删除......）

命令：

已验证文件是本地文件并具有以下权限：

错误（从原始 AI 平台日志中清理了一点）：

tensorflow tensorflow2.0 gsutil gcp-ai-platform-training

2020-04-01T20:43:03.647

问题标签 [gcp-ai-platform-training]

问题

差异：VM 与 AI 平台

出现问题的 Python 代码（编辑）

日志（编辑）

Reference