问题标签 [amazon-sagemaker]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-s3 - AWS S3 存储桶写入错误
我创建了 AWS S3 存储桶并在 Jupyter 笔记本上尝试了示例 kmeans 示例。作为帐户所有者,我具有读/写权限,但我无法写入日志并出现以下错误,
这是kmeans示例代码,
logging - 为什么 Cloudwatch 停止记录 Sagemaker?
我有一个 Sagemaker 实例正在运行一段时间。中间我没有做任何更改,但现在我在 Cloudwatch 上看不到新日志了。旧日志仍然存在,但 2 天后没有新日志。
Sagemaker 实例仍在运行。它只是不再记录。由于代码没有改变,而且我没有任何时间相关的东西,我很确定我达到了极限。但不知道是哪一个:
- 日志组只有一个日志流
- 单个日志流的大小为 175MB。
我找到了 CloudWatch Logs Limits和CloudWatch Events Limits,但这对我没有帮助。
可能是什么问题呢?我该如何调查它?
根据AWS 文档,这不应该发生。一般的 AWS 支持没有帮助。
amazon-s3 - 使用 sagemaker 将数据上传到 S3
当我尝试将数据上传到 S3 存储桶时,我遇到了 SageMaker 问题。我收到此错误:
这是脚本:
amazon-sagemaker - 使用 aws Sagemaker 运行训练作业时出错
我正在尝试通过 github 示例将我自己的病态学习 ML 模型与 SageMaker 一起使用。
python代码如下:
但我得到这个错误:
信息:sagemaker:使用名称创建培训作业:决策树样本-2018-04-24-13-13-38-281
-------------------------------------------------- ------------------------- ClientError Traceback (last last call last) in () 14 sagemaker_session=sess) 15 ---> 16 tree.fit ("s3://inteldatastore-cyrine/iris.csv")
~/anaconda3/envs/python3/lib/python3.6/site-packages/sagemaker/estimator.py in fit(self, inputs, wait, logs, job_name) 161 self.output_path = 's3://{}/' .format(self.sagemaker_session.default_bucket()) 162 --> 163 self.latest_training_job = _TrainingJob.start_new(self, inputs) 164 如果等待:165 self.latest_training_job.wait(logs=logs)
~/anaconda3/envs/python3/lib/python3.6/site-packages/sagemaker/estimator.py in start_new(cls, estimator, inputs) 336 input_config=input_config, role=role, job_name=estimator._current_job_name, 337 output_config= output_config,resource_config=resource_config,--> 338 超参数=hyperparameters,stop_condition=stop_condition)339 340 返回 cls(estimator.sagemaker_session,estimator._current_job_name)
~/anaconda3/envs/python3/lib/python3.6/site-packages/sagemaker/session.py in train(self, image, input_mode, input_config, role, job_name, output_config, resource_config, hyperparameters, stop_condition) 242 LOGGER.info ('使用名称创建训练作业:{}'.format(job_name)) 243 LOGGER.debug('train request: {}'.format(json.dumps(train_request, indent=4))) --> 244 self .sagemaker_client.create_training_job(**train_request) 245 246 def create_model(self, name, role, primary_container):
~/anaconda3/envs/python3/lib/python3.6/site-packages/botocore/client.py in _api_call(self, *args, **kwargs) 312 "%s() 只接受关键字参数。" % py_operation_name) 313 # 这个范围内的“self”是指BaseClient。--> 314 返回 self._make_api_call(operation_name, kwargs) 315 316 _api_call。名称= str(py_operation_name)
~/anaconda3/envs/python3/lib/python3.6/site-packages/botocore/client.py in _make_api_call(self, operation_name, api_params) 610 error_code = parsed_response.get("错误", {}).get("代码") 611 error_class = self.exceptions.from_code(error_code) --> 612 raise error_class(parsed_response, operation_name) 613 else: 614 return parsed_response
ClientError:调用 CreateTrainingJob 操作时发生错误 (AccessDeniedException):用户:arn:aws:sts::307504647302:assumed-role/default/SageMaker 无权执行:sagemaker:CreateTrainingJob on resource:arn:aws:sagemaker: eu-west-1:307504647302:training-job/decision-trees-sample-2018-04-24-13-13-38-281
你能帮我解决问题吗?
谢谢
amazon-web-services - 阻止 sagemaker 用户访问 s3 存储桶
我正在尝试添加一个 IAM 用户以使用 sagemaker。我使用了该AmazonSageMakerFullAccess
政策。但是当我以该用户身份登录时,我可以看到 root 帐户的所有 s3 存储桶并从中下载文件。
sagemaker文档指出
将 AmazonSageMakerFullAccess 策略附加到角色时,您必须执行以下操作之一以允许 Amazon SageMaker 访问您的 S3 存储桶:
在存储训练数据的存储桶的名称中包含字符串“SageMaker”或“sagemaker”,或模型训练产生的模型工件,或两者兼而有之。
在训练数据对象的对象名称中包含字符串“SageMaker”或“sagemaker”。
使用“sagemaker=true”标记 S3 对象。键和值区分大小写。有关更多信息,请参阅 Amazon Simple Storage Service 开发人员指南中的对象标记。
添加允许执行角色访问的存储桶策略。有关更多信息,请参阅 Amazon Simple Storage Service 开发人员指南中的使用存储桶策略和用户策略。
这似乎是不准确的,用户可以访问sagemaker
名称中缺少的 s3 存储桶。如何限制访问?
完整的政策如下
amazon-web-services - 我们可以在 AWS 的 SageMaker 中训练 TensorFlow 自定义对象检测模型吗?
你能帮我解决以下几点吗:
我们可以在 AWS 的 SageMaker 中训练 tensorflow 自定义对象检测模型吗?
我遇到了 SageMaker 的图像分类算法?我们可以在训练模型后使用它来检测视频中的特定对象吗?
对 SageMaker 的定价计划感到困惑。他们说“为您提供每月 250 小时 t2.medium 笔记本使用时间的免费套餐”;这是否意味着我们可以免费使用 t2.medium notebook 250 小时?
最终目标是训练一个用于自定义对象检测的模型,就像我们过去在纸空间或 floydhub 中以非常低的价格训练一样。
提前致谢。
amazon-web-services - AWS SageMaker - 在本地培训但部署到 AWS?
我对 SageMaker 有以下挑战:
- 我已经下载了一个教程笔记本(https://github.com/awslabs/amazon-sagemaker-examples/blob/master/sagemaker-python-sdk/tensorflow_abalone_age_predictor_using_keras/tensorflow_abalone_age_predictor_using_keras.ipynb)
我通过修改以下行在本地(成功)进行了培训:
/li>然后我想使用以下行将我的模型部署到 AWS,但似乎 SDK 在本地部署它(它没有失败,我只是看到它在我的机器上运行)
abalone_predictor = abalone_estimator.deploy(initial_instance_count=1, instance_type='ml.m4.xlarge')
关于如何修复它以便将其部署到 AWS 或重新加载我的训练模型并将其从头开始部署到 AWS 的任何提示?
非常感谢,斯特凡
amazon-s3 - Sagemaker 图像分类:在 S3 中对许多图像执行推理的最佳方法?
我用内置的 RESnet18 docker 镜像训练了一个模型,现在我想将该模型部署到一个端点并分类大约 100 万张图像。我的所有训练、验证和测试图像都以 RecordIO 格式(使用im2rec.py转换)存储在 S3 上。根据文档:
Amazon SageMaker 图像分类算法支持 RecordIO (application/x-recordio) 和图像 (application/x-image) 内容类型进行训练。该算法仅支持 application/x-image 进行推理。
所以我无法对 RecordIO 格式的训练数据进行推理。为了克服这个问题,我将所有原始 .jpg 图像(约 2GB)复制到我的 Sagemaker Jupyter Notebook 实例上,并按以下方式一次执行一个推理:
不用说,将所有数据传输到我的笔记本实例需要很长时间,我宁愿在运行推理之前不必这样做。为什么 SageMaker 图像分类不支持 RecordIO 进行推理?更重要的是,在无需将图像从 S3 中移出的情况下,对许多图像进行推理的最佳方法是什么?
tensorflow - SageMaker Tensorflow - 如何编写我的 serving_input_fn()
我对 Tensorflow 和 SageMaker 还很陌生,我正在尝试弄清楚如何编写我的serving_input_fn()
. 我已经尝试了很多方法来做到这一点,但无济于事。
我的输入函数有 3 个特征列amount_normalized, x_month and y_month
:
我希望能够使用类似的东西来调用我部署的模型deployed_model.predict([1.23,0.3,0.8])
其中第一个元素是amount_normalized
,第二个是x_month
第三个是y_month
我试过这个:
但我得到的只是:
An error occurred (ModelError) when calling the InvokeEndpoint operation: Received server error (500) from model with message "".
任何帮助将不胜感激!
amazon-web-services - 如何使用 AWS AMI 管理机器学习中的海量数据
我对 TensorFlow 和机器学习比较陌生。我有一个数据集运行成百万行,每行 > 2000 列。我正在考虑在 AWS AMI(C5 实例)上使用 Tensorflow。我不确定在哪里/如何存储这些庞大的数据。
1-我应该将其作为 csv 存储在 S3 存储桶中,还是应该将其加载到一些大数据系统中,然后使用 Apache spark 将其流式传输出来?你能在这里指导我吗?
2-另外,如果我必须清理这些数据,正确的方法是什么?也许使用 AWS Sagemaker 并使用 python/pandas(通过笔记本)来清理数据?这是正确的方法吗?