我正在使用 MERN(Mongodb,Express,React,NodeJS)Stack Code 进行 Aws 机器学习。但问题是,当我上传数据文件(.csv 文件)以进行过程机器学习后,有时过程训练因 TrainingFailed 错误而失败如下:
算法错误:CannotStartContainerError。请确保容器可以使用“docker run train”运行。有关详细信息,请参阅 SageMaker 文档。Dockerfile 的入口点可能没有正确定义,或者缺少权限。
还要在 AWS 账户中授予以下权限:
在所有设置和权限之后,我还应用了 mongodb 配置设置中的所有键我无法理解我需要处理机器学习。实际上训练没有完成,无法在 s3 存储桶中获取模型工件。它看起来像: sagemaker 过程是没有开始 。任何人都可以帮助我吗?
我的 DockerFile 存储在名为 Dockerfile 的项目文件夹中。
FROM ubuntu
RUN apt-get update
RUN apt-get install curl -y
RUN curl -sL https://deb.nodesource.com/setup_10.x -o nodesource_setup.sh
RUN bash nodesource_setup.sh
RUN apt install nodejs -y
WORKDIR /usr/app
COPY . /usr/app/
RUN npm install
EXPOSE 3000
ENTRYPOINT [ "python3.7", "/opt/ml/code/train.py" ]
我还在 Docker Hub 中为 Sagemaker 线性学习器和 xgboost 设置了代码映像,还在 aws 中的 ECR 中创建了存储库。
我还在 aws 的opt/ml/code/train.py 目录中复制了 train.py 并得到了输出输出:/home/ec2-user/SageMaker/docker_test_folder但仍然出现此错误。