问题标签 [amazon-sagemaker]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
796 浏览

amazon-s3 - AWS S3 存储桶写入错误

我创建了 AWS S3 存储桶并在 Jupyter 笔记本上尝试了示例 kmeans 示例。作为帐户所有者,我具有读/写权限,但我无法写入日志并出现以下错误,

这是kmeans示例代码,

0 投票
2 回答
2035 浏览

logging - 为什么 Cloudwatch 停止记录 Sagemaker?

我有一个 Sagemaker 实例正在运行一段时间。中间我没有做任何更改,但现在我在 Cloudwatch 上看不到新日志了。旧日志仍然存在,但 2 天后没有新日志。

Sagemaker 实例仍在运行。它只是不再记录。由于代码没有改变,而且我没有任何时间相关的东西,我很确定我达到了极限。但不知道是哪一个:

  • 日志组只有一个日志流
  • 单个日志流的大小为 175MB。

我找到了 CloudWatch Logs LimitsCloudWatch Events Limits,但这对我没有帮助。

可能是什么问题呢?我该如何调查它?

根据AWS 文档,这不应该发生。一般的 AWS 支持没有帮助。

0 投票
1 回答
8499 浏览

amazon-s3 - 使用 sagemaker 将数据上传到 S3

当我尝试将数据上传到 S3 存储桶时,我遇到了 SageMaker 问题。我收到此错误:


这是脚本:

0 投票
3 回答
3910 浏览

amazon-sagemaker - 使用 aws Sagemaker 运行训练作业时出错

我正在尝试通过 github 示例将我自己的病态学习 ML 模型与 SageMaker 一起使用。

python代码如下:

但我得到这个错误:

信息:sagemaker:使用名称创建培训作业:决策树样本-2018-04-24-13-13-38-281

-------------------------------------------------- ------------------------- ClientError Traceback (last last call last) in () 14 sagemaker_session=sess) 15 ---> 16 tree.fit ("s3://inteldatastore-cyrine/iris.csv")

~/anaconda3/envs/python3/lib/python3.6/site-packages/sagemaker/estimator.py in fit(self, inputs, wait, logs, job_name) 161 self.output_path = 's3://{}/' .format(self.sagemaker_session.default_bucket()) 162 --> 163 self.latest_training_job = _TrainingJob.start_new(self, inputs) 164 如果等待:165 self.latest_training_job.wait(logs=logs)

~/anaconda3/envs/python3/lib/python3.6/site-packages/sagemaker/estimator.py in start_new(cls, estimator, inputs) 336 input_config=input_config, role=role, job_name=estimator._current_job_name, 337 output_config= output_config,resource_config=resource_config,--> 338 超参数=hyperparameters,stop_condition=stop_condition)339 340 返回 cls(estimator.sagemaker_session,estimator._current_job_name)

~/anaconda3/envs/python3/lib/python3.6/site-packages/sagemaker/session.py in train(self, image, input_mode, input_config, role, job_name, output_config, resource_config, hyperparameters, stop_condition) 242 LOGGER.info ('使用名称创建训练作业:{}'.format(job_name)) 243 LOGGER.debug('train request: {}'.format(json.dumps(train_request, indent=4))) --> 244 self .sagemaker_client.create_training_job(**train_request) 245 246 def create_model(self, name, role, primary_container):

~/anaconda3/envs/python3/lib/python3.6/site-packages/botocore/client.py in _api_call(self, *args, **kwargs) 312 "%s() 只接受关键字参数。" % py_operation_name) 313 # 这个范围内的“self”是指BaseClient。--> 314 返回 self._make_api_call(operation_name, kwargs) 315 316 _api_call。名称= str(py_operation_name)

~/anaconda3/envs/python3/lib/python3.6/site-packages/botocore/client.py in _make_api_call(self, operation_name, api_params) 610 error_code = parsed_response.get("错误", {}).get("代码") 611 error_class = self.exceptions.from_code(error_code) --> 612 raise error_class(parsed_response, operation_name) 613 else: 614 return parsed_response

ClientError:调用 CreateTrainingJob 操作时发生错误 (AccessDeniedException):用户:arn:aws:sts::307504647302:assumed-role/default/SageMaker 无权执行:sagemaker:CreateTrainingJob on resource:arn:aws:sagemaker: eu-west-1:307504647302:training-job/decision-trees-sample-2018-04-24-13-13-38-281

你能帮我解决问题吗?

谢谢

0 投票
1 回答
1578 浏览

amazon-web-services - 阻止 sagemaker 用户访问 s3 存储桶

我正在尝试添加一个 IAM 用户以使用 sagemaker。我使用了该AmazonSageMakerFullAccess政策。但是当我以该用户身份登录时,我可以看到 root 帐户的所有 s3 存储桶并从中下载文件。

sagemaker文档指出

将 AmazonSageMakerFullAccess 策略附加到角色时,您必须执行以下操作之一以允许 Amazon SageMaker 访问您的 S3 存储桶:

在存储训练数据的存储桶的名称中包含字符串“SageMaker”或“sagemaker”,或模型训练产生的模型工件,或两者兼而有之。

在训练数据对象的对象名称中包含字符串“SageMaker”或“sagemaker”。

使用“sagemaker=true”标记 S3 对象。键和值区分大小写。有关更多信息,请参阅 Amazon Simple Storage Service 开发人员指南中的对象标记。

添加允许执行角色访问的存储桶策略。有关更多信息,请参阅 Amazon Simple Storage Service 开发人员指南中的使用存储桶策略和用户策略。

这似乎是不准确的,用户可以访问sagemaker名称中缺少的 s3 存储桶。如何限制访问?

完整的政策如下

0 投票
2 回答
1429 浏览

amazon-web-services - 我们可以在 AWS 的 SageMaker 中训练 TensorFlow 自定义对象检测模型吗?

你能帮我解决以下几点吗:

  1. 我们可以在 AWS 的 SageMaker 中训练 tensorflow 自定义对象检测模型吗?

  2. 我遇到了 SageMaker 的图像分类算法?我们可以在训练模型后使用它来检测视频中的特定对象吗?

  3. 对 SageMaker 的定价计划感到困惑。他们说“为您提供每月 250 小时 t2.medium 笔记本使用时间的免费套餐”;这是否意味着我们可以免费使用 t2.medium notebook 250 小时?

最终目标是训练一个用于自定义对象检测的模型,就像我们过去在纸空间或 floydhub 中以非常低的价格训练一样。

提前致谢。

0 投票
1 回答
773 浏览

amazon-web-services - AWS SageMaker - 在本地培训但部署到 AWS?

我对 SageMaker 有以下挑战:

关于如何修复它以便将其部署到 AWS 或重新加载我的训练模型并将其从头开始部署到 AWS 的任何提示?

非常感谢,斯特凡

0 投票
2 回答
2392 浏览

amazon-s3 - Sagemaker 图像分类:在 S3 中对许多图像执行推理的最佳方法?

我用内置的 RESnet18 docker 镜像训练了一个模型,现在我想将该模型部署到一个端点并分类大约 100 万张图像。我的所有训练、验证和测试图像都以 RecordIO 格式(使用im2rec.py转换)存储在 S3 上。根据文档

Amazon SageMaker 图像分类算法支持 RecordIO (application/x-recordio) 和图像 (application/x-image) 内容类型进行训练。该算法仅支持 application/x-image 进行推理。

所以我无法对 RecordIO 格式的训练数据进行推理。为了克服这个问题,我将所有原始 .jpg 图像(约 2GB)复制到我的 Sagemaker Jupyter Notebook 实例上,并按以下方式一次执行一个推理:

不用说,将所有数据传输到我的笔记本实例需要很长时间,我宁愿在运行推理之前不必这样做。为什么 SageMaker 图像分类不支持 RecordIO 进行推理?更重要的是,在无需将图像从 S3 中移出的情况下,对许多图像进行推理的最佳方法是什么?

0 投票
1 回答
1297 浏览

tensorflow - SageMaker Tensorflow - 如何编写我的 serving_input_fn()

我对 Tensorflow 和 SageMaker 还很陌生,我正在尝试弄清楚如何编写我的serving_input_fn(). 我已经尝试了很多方法来做到这一点,但无济于事。

我的输入函数有 3 个特征列amount_normalized, x_month and y_month

我希望能够使用类似的东西来调用我部署的模型deployed_model.predict([1.23,0.3,0.8])

其中第一个元素是amount_normalized,第二个是x_month第三个是y_month

我试过这个:

但我得到的只是: An error occurred (ModelError) when calling the InvokeEndpoint operation: Received server error (500) from model with message "".

任何帮助将不胜感激!

0 投票
1 回答
141 浏览

amazon-web-services - 如何使用 AWS AMI 管理机器学习中的海量数据

我对 TensorFlow 和机器学习比较陌生。我有一个数据集运行成百万行,每行 > 2000 列。我正在考虑在 AWS AMI(C5 实例)上使用 Tensorflow。我不确定在哪里/如何存储这些庞大的数据。

1-我应该将其作为 csv 存储在 S3 存储桶中,还是应该将其加载到一些大数据系统中,然后使用 Apache spark 将其流式传输出来?你能在这里指导我吗?

2-另外,如果我必须清理这些数据,正确的方法是什么?也许使用 AWS Sagemaker 并使用 python/pandas(通过笔记本)来清理数据?这是正确的方法吗?