问题标签 [gcp-ai-platform-training]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-platform - 如何在 AI Platform 上的自定义 Docker 映像中挂载 GCS 存储桶?
我正在使用 Google 的 AI 平台使用自定义 Docker 映像来训练机器学习模型。要在不修改的情况下运行现有代码,我想在容器内安装一个 GCS 存储桶。
我认为实现这一点的一种方法是安装gcloud
到身份验证并gcsfuse
安装在容器中。我的 Dockerfile 看起来像这样:
在入口点脚本中,我尝试使用 Google 云进行身份验证并挂载存储桶。我的entrypoint.sh
样子是这样的:
然后我构建容器并在本地运行它以进行测试或在 AI 平台上远程运行以进行完整的训练运行:
无论是在本地还是在 AI Platform 上,entrypoint.sh
脚本都会挂在 行gcloud auth login
,可能是因为它等待用户输入。有没有更好的方法在容器内使用 Google Cloud 进行身份验证?如果没有,我该如何自动化当前挂起的线路?
python-3.x - 如何使用谷歌云路径(gs://)获取谷歌云存储桶中的所有训练文件和测试文件来训练ai平台中的作业
我正在谷歌云平台上打包一个培训应用程序。我使用本地测试代码python -m
并gcloud ai-platform local train
找到它。但是当我将我的工作提交到谷歌云时,训练和测试数据集(在谷歌存储桶中)的路径不起作用。
我的存储桶目录:
我使用这个命令来提交我的工作
这是我的一些代码:
我期望目录列表cat
以及dog
train_path 和 test_path 的输出。此外,读取目录中文件的可能方式。
python - 哪个是谷歌云中训练有素的机器学习模型的最佳选择?
我在 python 中有一个训练有素的机器学习模型来获得回归输出,这个模型是用 scikit-learn 训练的
我想将此预测插入到 Firestore 中,我将使用云功能每天使用云调度程序进行调度。
我的问题是我必须在哪里存储这个训练有素的机器学习模型?
- 我可以将它存储到谷歌存储中并在我的云函数中调用它来获取预测吗?
或者我应该将它存储到人工智能平台中?
如果答案是人工智能平台,为什么?存入AI平台有什么优势?我可以用那里的新数据训练模型吗?
我一直在读到这是可能的,但我不知道为什么更好以及如何去做
python - Is it possible to use Firestore from within ML Engine / AI Platform?
I built a model and put it behind AI Platform.
I would like to get additional data from Firestore (which I am using for document storage) before serving a prediction.
Is this possible?
If not, how to go around this problem? One way is to create another microservice which connects to Firebase and returns the object, but I'd rather keep everything inside 1 container.
For example, using the custom prediction pipeline I have:
But this gives me an Internal Error when serving a prediction on AI-Platform.
google-cloud-platform - 我在GCP的AI平台上提交训练操作失败
我在GCP的AI平台上提交训练操作失败,报错“xxx@gmail.com没有storage.objects.create access to your-bucket-name/fcnndemo/trainer/packages/980a4aa0a09719cf43f04580d8e6c218346e3ad085e3f48fd11b79ec57a702fe/ai_platform_demo-0.0 .0.tar.gz。”
我正在尝试使用 GEE 中的数据并将其提交到 AI 平台进行训练。我正在 Colab 笔记本上运行它。
为什么我没有 storage.objects.create 访问权限?
python-3.x - 用于 Tensorflow 的 Kubernetes OOMKilled 容器
我有一个在我的笔记本电脑(16GB RAM)上运行良好的 Keras 模型(tensorflow 后端)。
但是,我使用 Kubeflow 将其部署到 GCP 并且每次 pod 终止时(OOMKilled
)。为 CPU 和内存指定了请求和限制。
kubeflow 为我生成的 dockerfile:
有一些看起来像 Tensorflow 的日志输出:
但最终,RAM 以线性曲线增长,直到大约 50 分钟后终止。
该模型很简单,虽然数据是一个约 1GB 的 CSV 文件,但它会立即加载,并且崩溃发生在第 3 个时期左右。
我怀疑 Tensorflow 没有遵守最大内存限制。
我尝试了不同的请求/限制,事实上,正如我所说的,该模型以前在我的笔记本电脑上训练得很好。
我可以尝试什么?错在哪里?
容器规范的相关部分:
该节点是使用 GKE 的自动配置自动配置的——它创建了一个n1-standard-8
,即 8 个 VCPU,30 GB RAM。
java - 如何使用 google ml api 修复无效范围(400 错误请求)
我尝试使用 Java google ml api 发送预测请求。我的内容是一个 int 数组(它来自图像),我创建了一个 JsonHttpContent,但不确定它是否是执行预测请求的方式。我在本地有凭据 json 密钥。这里的请求:
这是错误:
我不明白我的问题的根源。是来自请求的内容吗?提前致谢
google-cloud-platform - 使用 Google Cloud AI Platform 和 GPU 运行自定义预测
我正在尝试将 MaskRCNN 模型部署到 GCP AI 平台。默认在线预测对我不起作用,因为我的输入大小大于允许的限制。所以,我决定继续使用自定义预测路线。
关于自定义预测,我尝试使用比默认提供的更大的机器类型,因为我的模型很大并且需要比默认模型 (mls1-c1-m2) 提供的更多的内存。
我想使用 n1-standard-4 机器类型部署模型,以下是我正在运行的命令:
但这会引发错误:
我也尝试了 --framework arg 的不同变体,但它们都抛出了一些类似的错误。那么,为什么会抛出这个错误呢?
如果这可行,那么我的想法是将此机器类型与 k80 加速器一起使用。这将是我的第二个问题?我可以使用加速器运行它以进行自定义预测吗?
airflow - gcloud ai-platform 操作等待操作中的操作名称是什么?
在继续我的工作流程的其余部分之前,我需要等待 ML 训练作业完成。
我正在使用 Composer/Airflow 来编排我的任务。我的第一个任务是在 AI 平台上启动 ML 训练,然后我需要等待这个训练完成才能继续下一个任务。
我无法理解此处的文档,该文档解释了如何等待 ML 操作结束。
文档指出:
gcloud ai-platform operations wait OPERATION
目前,我的代码是:
我得到了错误:
字段操作应该有什么?
有关更多上下文,我的 dag 如下所示:
这里 test_training 是成功的,所以在 get_ml_status 任务开始之前启动了一个训练作业。
python - 无法在 Google AI 平台 (CMLE) 上安装 pycocotools
trainer
在 AI 平台上安装软件包时出现此错误,
回溯(最后一次调用):文件“”,第 1 行,在文件“/tmp/pip-install-_u8thvm6/pycocotools/setup.py”中,第 2 行,来自 Cython.Build import cythonize ImportError: No module named '赛通'
虽然我已经包含'Cython'
在setup.py
.
设置.py: