0

我正在使用 MERN(MongoDb,Experss,ReactJS,NodeJS)堆栈进行机器学习,其中 Aws 密钥(访问密钥和秘密密钥)放置在 MongoDB 配置中,并用于在 Nodejs 和 Express 中编写模型代码。

问题: 上传 .csv 或 .xls 文件后,在 aws 帐户中未完成培训,它将显示培训失败并出现以下错误:

算法错误:CannotStartContainerError。请确保容器可以使用“docker run train”运行。有关详细信息,请参阅 SageMaker 文档。Dockerfile 的入口点可能没有正确定义,或者缺少权限。

对于机器学习,我将完成以下设置: S3 - 创建访问密钥和秘密密钥和创建存储桶 - 密钥被放置到 MongoDB 配置和存储桶和区域也放置在那里。

Sagemaker -> Notebook Instacne - 创建笔记本实例,并且服务处于待处理状态。- 此设置在 aws 帐户中完成。

Sagemaker -> 我是角色 -创建我是角色 - 此设置在 aws 帐户中完成。

Sagemaker -> 模型 - 创建模型和模型 ARN 和角色 ARN。- 此设置在 aws 帐户中完成。

ECR(弹性容器注册表) -使用名称 linear-learner 和 xgboost 创建存储库-此设置在 aws 帐户中完成。

Dockerfile -创建 Dockerfile -保存在项目文件夹中。

Docker Hub - 创建 Docker Hub 账户

SNS 凭证 -SNS 密钥和主题 ARN -在 MongoDB 配置中设置。

以下权限由我提供: 附加目录 AmazonSagemakerFullAccess AmazonS3FullAccess AmazonSNSFullAccess AmazonEC2ContainerRegistryReadOnly

从组附加 AmazonEC2FullAccess AmazonDymonDBFullAccess AmazonMachineLearningFullAccess AdministratorAccess AWSElasticBeanStalkFullAccess AmazonSagemakerFullAccess

Dockerfile

FROM Ubuntu
RUN apt-get update
RUN apt-get install curl -y
RUN curl -sL https://deb.nodesource.com/setup_10.x -o nodesource_setup.sh
RUN bash nodesource_setup.sh
RUN apt install nodejs -y
WORKDIR /usr/app
COPY . /usr/app/
RUN npm install
EXPOSE 3000
ENTRYPOINT [ "python3.7", "/opt/ml/code/train.py" ]
Code Image 

Linear : <account_id>.dkr.ecr.us-east-2.amazonaws.com/linear-learner:latest

XgBoost : <account_id>.dkr.ecr.us-east-2.amazonaws.com/xgboost:latest
I run the following commands to build and tag images from dockerfile:
-> $ docker build -t <codeimage>:<tag>
Successfully built <id>
Successfully tagged <codeimage>:<tag>

-> $ docker build -t <account.id>.dkr.ecr.<region>.amazonaws.com/<codeimage>
Successfully build <id>
Successfully tagged <url>

-> $ docker images
-Check all images with tags

-> $ docker tag [image name]:[tag] [repository URI]

> $ sudo aws ecr get-login-password | sudo docker login –username AWS –password -stdin [account.id].dkr.ecr.[region].amazonaws.com
Login Succedded

> $ sudo docker push [account.id].dkr.ecr.[region].amazonaws.com/[repository name]

<id> Pushed

<id> Pushed

泊坞窗图像 在此处输入图像描述

Docker 镜像也通过创建与我们在 ECR 中提供的相同名称的存储库来推送到 Docker Hub。 在此处输入图像描述

在我上传 .csv 或 .xls 文件的所有这些设置和事情之后,我在训练模型期间遇到了同样的错误,因为上面提到的训练失败并且我的过程没有 100% 完成。 在此处输入图像描述

在设置完所有这些东西和权限之后,过程还没有完成并且得到这个错误任何人都可以帮我处理这些吗?

4

0 回答 0