问题标签 [gcp-ai-platform-training]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow - 云计算虚拟机与 AI 平台的性能差异
我有一个 GCP 云计算 VM,它是一个n1-standard-16
4 个 P100 GPU,以及一个用于存储数据的固态驱动器。我将其称为“VM”。
我之前使用虚拟机来训练基于 tensorflow 的 CNN。我想从这个转向使用 AI Platform,这样我就可以同时运行多个作业。但是我遇到了一些问题。
问题
当在 VM 上运行训练时,我可以将批量大小设置为 400,完成一个 epoch 的标准时间约为 25 分钟。
当训练在一个complex_model_m_p100
我认为相当于 VM 的 AI 平台机器上运行时,我可以设置最大批量大小为 128,完成一个 epoch 的标准时间是 1 小时 40 分钟。
差异:VM 与 AI 平台
VM 使用 TF1.12,AI Platform 使用 TF1.15。因此,GPU 驱动程序存在差异(CUDA 9 与 CUDA 10)。
VM配备了固态驱动器,我认为AI平台机器不是这种情况。
我想了解减少批量大小的原因,并将 AI Platform 上的 epoch 时间减少到与 Glamdring 相当的水平。有没有其他人遇到过这个问题?我是否在正确类型的 AI Platform 机器上运行?任何的建议都受欢迎!
google-cloud-platform - 如何在谷歌云 AI 平台中增加 jupyter notebook 最大缓冲区大小?
我在谷歌云平台上运行 Jupyter 笔记本。我有一个很大的pickeld Dataframe 可供阅读。由于 Jupyter 笔记本的默认缓冲区大小约为 0.5 Gb,因此它会崩溃并重新启动内核。我已经在 Compute Engine 中添加NotebookApp.max_buffer_size='my desired value'
了jupyter_notebook_config.py
,但仍然存在问题。
google-cloud-platform - 无法将预训练模型上传到 AI Platform
我已经训练了一个随机森林分类器并将模型作为 joblib 文件存储在谷歌存储中。使用带有此 model.joblib 文件的 scikit-learn 框架创建版本时,ai-platform 会出错。错误就像 - :
该模型为 283Mb - 完全在允许的大小限制内。
google-cloud-platform - 使用 google ai-platform 请求将简单日志写入云存储桶
在 GCP ai-platform 中,除了保存 tf.keras 模型外,我还尝试将简单日志写入文件。但是,使用tf.saved_model.save
作品保存模型,而写入 .txt 使用with open(file) as out:
不会并会引发以下问题:
谁能解释 ai-platform 如何发现文件路径有什么区别?
我的请求基本上看起来像这样(请参阅https://cloud.google.com/ai-platform/docs/getting-started-keras)
trainer/task.py 脚本的相关部分是这样的:
google-cloud-platform - 手动安装 GCP VM 模块中的所有内容
我是云新手,仍在学习 GCP,在学习不同模块的同时,我在 2 个月内用尽了 GCP 的几乎所有免费学分。GCP 很棒,它提供了很多东西来简化开发和维护过程。
但我意识到使用不同的模块让我付出了很多。所以我想知道我是否可以拥有一个大的 VM 盒子,我自己安装 MySQL、Docker 和 Java 和 React 所需的组件,我可以在不使用额外模块的情况下实现几乎我想要的。我对吗?
我可以通过更改 API 端口来使用同一个 VM 来托管多个站点,还是我需要为此设置不同的盒子?
google-cloud-platform - AI 平台内置图像分类算法不会在训练结束时导出模型
我一直在使用新的AI 平台内置图像分类算法进行训练。通常,尽管训练作业成功完成,但保存的模型不会输出到 gs 作业目录。日志中没有错误。日志中唯一表明有问题的迹象是缺少以下几行:
执行最佳模型导出
SavedModel 写入:jobDirSubDir /saved_model.pb
将最佳 SavedModel 从jobDirSubDir导出到jobDirSubDir /model
最终评估完成后,该工作就完成了。
任何有关如何解决此内置算法的提示将不胜感激。或者,如果它是开源的,请指出正确的 repo。
谢谢
google-cloud-platform - 似乎无法在我的自定义预测器类代码中导入我的 Pytorch 模型架构类,以便在 AI Platform 上进行自定义管道部署
我在 AI Platform Serving 上部署简单的 Pytorch 训练模型时遇到问题。
这是错误:
这是自定义预测类:
我尝试更改代码并保存模型格式(.pkl、.pth、.pt),但似乎没有任何效果。我还尝试将我的模型类包含在与我的自定义预测器类相同的 .py 脚本中,但这也不起作用。pip-installable 包包含所有必要的代码,即模型代码以及自定义预测器代码。感谢帮助!
python - 从 Google Cloud Python 作业访问 Google Storage 上的文件
我正在大致按照教程在 Google Cloud AI 平台上训练 TensorFlow 估计器。
我想访问一个包含我的训练和评估数据的目录,为此我将我的数据文件递归复制到 Google 存储,如下所示:
这工作正常,并gsutil ls gs://name-of-my-bucket/data
正确返回:
但是,从 Python 脚本调用os.listdir(data_dir)
会引发我迄今为止尝试过FileNotFoundError
的任何值,包括and 。为什么?data_dir
'data/'
'name-of-my-bucket/data/'
我知道我的 Python 脚本正在从目录执行。/root/.local/lib/python3.7/site-packages/trainer/
/user_dir
出现问题的 Python 代码(编辑)
这是出现错误的行之前的代码,直接来自__main__
我的 Python 脚本部分:
这是出现错误的代码行(在我上面报告的代码行之后立即调用的单独函数的第一行):
日志(编辑)
我的这项工作的日志是一个信息列表(加上 5 个与 TensorFlow 相关的弃用警告),然后是来自任务的错误:master-replica-0
...随后是来自同一任务的另一个错误(从我的 Python 命令报告非零退出状态),然后是关于清理的两个信息,最后是来自任务的错误:service
google-cloud-platform - 在 AI Platform 中使用 `capture_tpu_profile`
我们正在尝试在 AI Platform 上运行我们的训练任务时捕获 TPU 分析数据。按照本教程。从我们的模型输出中获取所有需要的信息,例如 TPU 名称。
配置.yaml:
任务提交命令:
当我们尝试capture_tpu_profile
使用模型从 master 获得的名称运行时:
我们得到了这个错误:
在 AI Platform 中提供时,似乎 TPU 设备未连接到我们的项目,但是连接到什么项目,我们可以访问此类 TPU 以捕获其配置文件吗?
tensorflow - ai-platform + gsutil 权限错误:AttributeError:“GFile”对象没有“可读”属性
读取从 gcs 传输的 csv 文件 2020 年 3 月 13 日时开始遇到错误。下载后检查ai平台上的文件权限
相关文档:https ://www.tensorflow.org/api_docs/python/tf/io/gfile/GFile (看起来可读属性已被删除......)
命令:
已验证文件是本地文件并具有以下权限:
错误(从原始 AI 平台日志中清理了一点):