“amazon-sagemaker”的相关标签问题

0 投票

1 回答

796 浏览

amazon-s3 - AWS S3 存储桶写入错误

我创建了 AWS S3 存储桶并在 Jupyter 笔记本上尝试了示例 kmeans 示例。作为帐户所有者，我具有读/写权限，但我无法写入日志并出现以下错误，

这是kmeans示例代码，

amazon-s3 amazon-sagemaker

2018-04-13T22:36:17.623

0 投票

2 回答

2035 浏览

logging - 为什么 Cloudwatch 停止记录 Sagemaker？

我有一个 Sagemaker 实例正在运行一段时间。中间我没有做任何更改，但现在我在 Cloudwatch 上看不到新日志了。旧日志仍然存在，但 2 天后没有新日志。

Sagemaker 实例仍在运行。它只是不再记录。由于代码没有改变，而且我没有任何时间相关的东西，我很确定我达到了极限。但不知道是哪一个：

日志组只有一个日志流
单个日志流的大小为 175MB。

我找到了 CloudWatch Logs Limits和CloudWatch Events Limits，但这对我没有帮助。

可能是什么问题呢？我该如何调查它？

根据AWS 文档，这不应该发生。一般的 AWS 支持没有帮助。

2018-04-20T11:06:04.687

0 投票

1 回答

8499 浏览

amazon-s3 - 使用 sagemaker 将数据上传到 S3

当我尝试将数据上传到 S3 存储桶时，我遇到了 SageMaker 问题。我收到此错误：

这是脚本：

amazon-s3 amazon-sagemaker

2018-04-23T09:31:28.687

0 投票

3 回答

3910 浏览

amazon-sagemaker - 使用 aws Sagemaker 运行训练作业时出错

我正在尝试通过 github 示例将我自己的病态学习 ML 模型与 SageMaker 一起使用。

python代码如下：

但我得到这个错误：

信息：sagemaker：使用名称创建培训作业：决策树样本-2018-04-24-13-13-38-281

-------------------------------------------------- ------------------------- ClientError Traceback (last last call last) in () 14 sagemaker_session=sess) 15 ---> 16 tree.fit ("s3://inteldatastore-cyrine/iris.csv")

~/anaconda3/envs/python3/lib/python3.6/site-packages/sagemaker/estimator.py in fit(self, inputs, wait, logs, job_name) 161 self.output_path = 's3://{}/' .format(self.sagemaker_session.default_bucket()) 162 --> 163 self.latest_training_job = _TrainingJob.start_new(self, inputs) 164 如果等待：165 self.latest_training_job.wait(logs=logs)

~/anaconda3/envs/python3/lib/python3.6/site-packages/sagemaker/estimator.py in start_new(cls, estimator, inputs) 336 input_config=input_config, role=role, job_name=estimator._current_job_name, 337 output_config= output_config，resource_config=resource_config，--> 338 超参数=hyperparameters，stop_condition=stop_condition）339 340 返回 cls（estimator.sagemaker_session，estimator._current_job_name）

~/anaconda3/envs/python3/lib/python3.6/site-packages/sagemaker/session.py in train(self, image, input_mode, input_config, role, job_name, output_config, resource_config, hyperparameters, stop_condition) 242 LOGGER.info ('使用名称创建训练作业：{}'.format(job_name)) 243 LOGGER.debug('train request: {}'.format(json.dumps(train_request, indent=4))) --> 244 self .sagemaker_client.create_training_job(**train_request) 245 246 def create_model(self, name, role, primary_container):

~/anaconda3/envs/python3/lib/python3.6/site-packages/botocore/client.py in _api_call(self, *args, **kwargs) 312 "%s() 只接受关键字参数。" % py_operation_name) 313 # 这个范围内的“self”是指BaseClient。--> 314 返回 self._make_api_call(operation_name, kwargs) 315 316 _api_call。名称= str(py_operation_name)

~/anaconda3/envs/python3/lib/python3.6/site-packages/botocore/client.py in _make_api_call(self, operation_name, api_params) 610 error_code = parsed_response.get("错误", {}).get("代码") 611 error_class = self.exceptions.from_code(error_code) --> 612 raise error_class(parsed_response, operation_name) 613 else: 614 return parsed_response

ClientError：调用 CreateTrainingJob 操作时发生错误 (AccessDeniedException)：用户：arn:aws:sts::307504647302:assumed-role/default/SageMaker 无权执行：sagemaker:CreateTrainingJob on resource:arn:aws:sagemaker: eu-west-1:307504647302:training-job/decision-trees-sample-2018-04-24-13-13-38-281

你能帮我解决问题吗？

谢谢

amazon-sagemaker

2018-04-24T13:33:47.563

0 投票

1 回答

1578 浏览

amazon-web-services - 阻止 sagemaker 用户访问 s3 存储桶

我正在尝试添加一个 IAM 用户以使用 sagemaker。我使用了该AmazonSageMakerFullAccess政策。但是当我以该用户身份登录时，我可以看到 root 帐户的所有 s3 存储桶并从中下载文件。

sagemaker文档指出

将 AmazonSageMakerFullAccess 策略附加到角色时，您必须执行以下操作之一以允许 Amazon SageMaker 访问您的 S3 存储桶：

在存储训练数据的存储桶的名称中包含字符串“SageMaker”或“sagemaker”，或模型训练产生的模型工件，或两者兼而有之。

在训练数据对象的对象名称中包含字符串“SageMaker”或“sagemaker”。

使用“sagemaker=true”标记 S3 对象。键和值区分大小写。有关更多信息，请参阅 Amazon Simple Storage Service 开发人员指南中的对象标记。

添加允许执行角色访问的存储桶策略。有关更多信息，请参阅 Amazon Simple Storage Service 开发人员指南中的使用存储桶策略和用户策略。

这似乎是不准确的，用户可以访问sagemaker名称中缺少的 s3 存储桶。如何限制访问？

完整的政策如下

amazon-web-services amazon-s3 amazon-iam amazon-sagemaker

2018-04-25T23:43:37.877

0 投票

2 回答

1429 浏览

amazon-web-services - 我们可以在 AWS 的 SageMaker 中训练 TensorFlow 自定义对象检测模型吗？

你能帮我解决以下几点吗：

我们可以在 AWS 的 SageMaker 中训练 tensorflow 自定义对象检测模型吗？
我遇到了 SageMaker 的图像分类算法？我们可以在训练模型后使用它来检测视频中的特定对象吗？
对 SageMaker 的定价计划感到困惑。他们说“为您提供每月 250 小时 t2.medium 笔记本使用时间的免费套餐”；这是否意味着我们可以免费使用 t2.medium notebook 250 小时？

最终目标是训练一个用于自定义对象检测的模型，就像我们过去在纸空间或 floydhub 中以非常低的价格训练一样。

提前致谢。

amazon-web-services tensorflow object-detection-api amazon-sagemaker

2018-04-26T10:54:34.370

0 投票

1 回答

773 浏览

amazon-web-services - AWS SageMaker - 在本地培训但部署到 AWS？

我对 SageMaker 有以下挑战：

我已经下载了一个教程笔记本（https://github.com/awslabs/amazon-sagemaker-examples/blob/master/sagemaker-python-sdk/tensorflow_abalone_age_predictor_using_keras/tensorflow_abalone_age_predictor_using_keras.ipynb）
我通过修改以下行在本地（成功）进行了培训：
/li>
然后我想使用以下行将我的模型部署到 AWS，但似乎 SDK 在本地部署它（它没有失败，我只是看到它在我的机器上运行）

abalone_predictor = abalone_estimator.deploy(initial_instance_count=1, instance_type='ml.m4.xlarge')

关于如何修复它以便将其部署到 AWS 或重新加载我的训练模型并将其从头开始部署到 AWS 的任何提示？

非常感谢，斯特凡

amazon-web-services amazon-sagemaker

2018-04-26T16:07:01.607

0 投票

2 回答

2392 浏览

amazon-s3 - Sagemaker 图像分类：在 S3 中对许多图像执行推理的最佳方法？

我用内置的 RESnet18 docker 镜像训练了一个模型，现在我想将该模型部署到一个端点并分类大约 100 万张图像。我的所有训练、验证和测试图像都以 RecordIO 格式（使用im2rec.py转换）存储在 S3 上。根据文档：

Amazon SageMaker 图像分类算法支持 RecordIO (application/x-recordio) 和图像 (application/x-image) 内容类型进行训练。该算法仅支持 application/x-image 进行推理。

所以我无法对 RecordIO 格式的训练数据进行推理。为了克服这个问题，我将所有原始 .jpg 图像（约 2GB）复制到我的 Sagemaker Jupyter Notebook 实例上，并按以下方式一次执行一个推理：

不用说，将所有数据传输到我的笔记本实例需要很长时间，我宁愿在运行推理之前不必这样做。为什么 SageMaker 图像分类不支持 RecordIO 进行推理？更重要的是，在无需将图像从 S3 中移出的情况下，对许多图像进行推理的最佳方法是什么？

amazon-s3 resnet amazon-sagemaker

2018-04-26T18:39:35.170

0 投票

1 回答

1297 浏览

tensorflow - SageMaker Tensorflow - 如何编写我的 serving_input_fn()

我对 Tensorflow 和 SageMaker 还很陌生，我正在尝试弄清楚如何编写我的serving_input_fn(). 我已经尝试了很多方法来做到这一点，但无济于事。

我的输入函数有 3 个特征列amount_normalized, x_month and y_month：

我希望能够使用类似的东西来调用我部署的模型deployed_model.predict([1.23,0.3,0.8])

其中第一个元素是amount_normalized，第二个是x_month第三个是y_month

我试过这个：

但我得到的只是： An error occurred (ModelError) when calling the InvokeEndpoint operation: Received server error (500) from model with message "".

任何帮助将不胜感激！

tensorflow amazon-sagemaker

2018-04-27T19:14:45.467

0 投票

1 回答

141 浏览

amazon-web-services - 如何使用 AWS AMI 管理机器学习中的海量数据

我对 TensorFlow 和机器学习比较陌生。我有一个数据集运行成百万行，每行 > 2000 列。我正在考虑在 AWS AMI（C5 实例）上使用 Tensorflow。我不确定在哪里/如何存储这些庞大的数据。

1-我应该将其作为 csv 存储在 S3 存储桶中，还是应该将其加载到一些大数据系统中，然后使用 Apache spark 将其流式传输出来？你能在这里指导我吗？

2-另外，如果我必须清理这些数据，正确的方法是什么？也许使用 AWS Sagemaker 并使用 python/pandas（通过笔记本）来清理数据？这是正确的方法吗？

amazon-web-services apache-spark machine-learning amazon-sagemaker

2018-05-02T11:19:19.470

问题标签 [amazon-sagemaker]

Reference