问题标签 [gcp-ai-platform-training]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
303 浏览

tensorflow - 云计算虚拟机与 AI 平台的性能差异

我有一个 GCP 云计算 VM,它是一个n1-standard-164 个 P100 GPU,以及一个用于存储数据的固态驱动器。我将其称为“VM”。

我之前使用虚拟机来训练基于 tensorflow 的 CNN。我想从这个转向使用 AI Platform,这样我就可以同时运行多个作业。但是我遇到了一些问题。

问题

当在 VM 上运行训练时,我可以将批量大小设置为 400,完成一个 epoch 的标准时间约为 25 分钟。

当训练在一个complex_model_m_p100我认为相当于 VM 的 AI 平台机器上运行时,我可以设置最大批量大小为 128,完成一个 epoch 的标准时间是 1 小时 40 分钟。

差异:VM 与 AI 平台

  • VM 使用 TF1.12,AI Platform 使用 TF1.15。因此,GPU 驱动程序存在差异(CUDA 9 与 CUDA 10)。

  • VM配备了固态驱动器,我认为AI平台机器不是这种情况。

我想了解减少批量大小的原因,并将 AI Platform 上的 epoch 时间减少到与 Glamdring 相当的水平。有没有其他人遇到过这个问题?我是否在正确类型的 AI Platform 机器上运行?任何的建议都受欢迎!

0 投票
1 回答
2741 浏览

google-cloud-platform - 如何在谷歌云 AI 平台中增加 jupyter notebook 最大缓冲区大小?

我在谷歌云平台上运行 Jupyter 笔记本。我有一个很大的pickeld Dataframe 可供阅读。由于 Jupyter 笔记本的默认缓冲区大小约为 0.5 Gb,因此它会崩溃并重新启动内核。我已经在 Compute Engine 中添加NotebookApp.max_buffer_size='my desired value'jupyter_notebook_config.py,但仍然存在问题。

0 投票
1 回答
242 浏览

google-cloud-platform - 无法将预训练模型上传到 AI Platform

我已经训练了一个随机森林分类器并将模型作为 joblib 文件存储在谷歌存储中。使用带有此 model.joblib 文件的 scikit-learn 框架创建版本时,ai-platform 会出错。错误就像 - :

该模型为 283Mb - 完全在允许的大小限制内。

0 投票
1 回答
301 浏览

google-cloud-platform - 使用 google ai-platform 请求将简单日志写入云存储桶

在 GCP ai-platform 中,除了保存 tf.keras 模型外,我还尝试将简单日志写入文件。但是,使用tf.saved_model.save作品保存模型,而写入 .txt 使用with open(file) as out:不会并会引发以下问题:

谁能解释 ai-platform 如何发现文件路径有什么区别?

我的请求基本上看起来像这样(请参阅https://cloud.google.com/ai-platform/docs/getting-started-keras

trainer/task.py 脚本的相关部分是这样的:

0 投票
1 回答
37 浏览

google-cloud-platform - 手动安装 GCP VM 模块中的所有内容

我是云新手,仍在学习 GCP,在学习不同模块的同时,我在 2 个月内用尽了 GCP 的几乎所有免费学分。GCP 很棒,它提供了很多东西来简化开发和维护过程。

但我意识到使用不同的模块让我付出了很多。所以我想知道我是否可以拥有一个大的 VM 盒子,我自己安装 MySQL、Docker 和 Java 和 React 所需的组件,我可以在不使用额外模块的情况下实现几乎我想要的。我对吗?

我可以通过更改 API 端口来使用同一个 VM 来托管多个站点,还是我需要为此设置不同的盒子?

0 投票
0 回答
78 浏览

google-cloud-platform - AI 平台内置图像分类算法不会在训练结束时导出模型

我一直在使用新的AI 平台内置图像分类算法进行训练。通常,尽管训练作业成功完成,但保存的模型不会输出到 gs 作业目录。日志中没有错误。日志中唯一表明有问题的迹象是缺少以下几行:

执行最佳模型导出

SavedModel 写入:jobDirSubDir /saved_model.pb

将最佳 SavedModel 从jobDirSubDir导出到jobDirSubDir /model

最终评估完成后,该工作就完成了。

任何有关如何解决此内置算法的提示将不胜感激。或者,如果它是开源的,请指出正确的 repo。

谢谢

0 投票
0 回答
113 浏览

google-cloud-platform - 似乎无法在我的自定义预测器类代码中导入我的 Pytorch 模型架构类,以便在 AI Platform 上进行自定义管道部署

我在 AI Platform Serving 上部署简单的 Pytorch 训练模型时遇到问题。

这是错误:

这是自定义预测类:

我尝试更改代码并保存模型格式(.pkl、.pth、.pt),但似乎没有任何效果。我还尝试将我的模型类包含在与我的自定义预测器类相同的 .py 脚本中,但这也不起作用。pip-installable 包包含所有必要的代码,即模型代码以及自定义预测器代码。感谢帮助!

0 投票
2 回答
1357 浏览

python - 从 Google Cloud Python 作业访问 Google Storage 上的文件

我正在大致按照教程在 Google Cloud AI 平台上训练 TensorFlow 估计器。

我想访问一个包含我的训练和评估数据的目录,为此我将我的数据文件递归复制到 Google 存储,如下所示:

这工作正常,并gsutil ls gs://name-of-my-bucket/data正确返回:

但是,从 Python 脚本调用os.listdir(data_dir)会引发我迄今为止尝试过FileNotFoundError的任何值,包括and 。为什么?data_dir'data/''name-of-my-bucket/data/'

我知道我的 Python 脚本正在从目录执行。/root/.local/lib/python3.7/site-packages/trainer/ /user_dir

出现问题的 Python 代码(编辑)

这是出现错误的行之前的代码,直接来自__main__我的 Python 脚本部分:

这是出现错误的代码行(在我上面报告的代码行之后立即调用的单独函数的第一行):

日志(编辑)

我的这项工作的日志是一个信息列表(加上 5 个与 TensorFlow 相关的弃用警告),然后是来自任务的错误:master-replica-0

...随后是来自同一任务的另一个错误(从我的 Python 命令报告非零退出状态),然后是关于清理的两个信息,最后是来自任务的错误:service

0 投票
0 回答
103 浏览

google-cloud-platform - 在 AI Platform 中使用 `capture_tpu_profile`

我们正在尝试在 AI Platform 上运行我们的训练任务时捕获 TPU 分析数据。按照本教程。从我们的模型输出中获取所有需要的信息,例如 TPU 名称。

配置.yaml:

任务提交命令:

当我们尝试capture_tpu_profile使用模型从 master 获得的名称运行时:

我们得到了这个错误:

在 AI Platform 中提供时,似乎 TPU 设备未连接到我们的项目,但是连接到什么项目,我们可以访问此类 TPU 以捕获其配置文件吗?

0 投票
2 回答
380 浏览

tensorflow - ai-platform + gsutil 权限错误:AttributeError:“GFile”对象没有“可读”属性

读取从 gcs 传输的 csv 文件 2020 年 3 月 13 日时开始遇到错误。下载后检查ai平台上的文件权限

相关文档:https ://www.tensorflow.org/api_docs/python/tf/io/gfile/GFile (看起来可读属性已被删除......)

命令:

已验证文件是本地文件并具有以下权限:

错误(从原始 AI 平台日志中清理了一点):