12

我有一个 Sagemaker 实例正在运行一段时间。中间我没有做任何更改,但现在我在 Cloudwatch 上看不到新日志了。旧日志仍然存在,但 2 天后没有新日志。

Sagemaker 实例仍在运行。它只是不再记录。由于代码没有改变,而且我没有任何时间相关的东西,我很确定我达到了极限。但不知道是哪一个:

  • 日志组只有一个日志流
  • 单个日志流的大小为 175MB。

我找到了 CloudWatch Logs LimitsCloudWatch Events Limits,但这对我没有帮助。

可能是什么问题呢?我该如何调查它?

根据AWS 文档,这不应该发生。一般的 AWS 支持没有帮助。

4

2 回答 2

0

我多次遇到这个问题。端点更新后可能没有创建新的 LogStream(这可以由您触发,或者 AWS 重新启动/更新底层实例)。您应该看到在您的端点上运行/曾经运行的每个实例的 logStream。

不幸的是,对我来说减轻它的唯一方法是更新端点(例如,应用使用相同模型的相同 EndpointConfiguration),基本上触发实例及其日志流的重新创建

于 2021-04-20T08:41:14.837 回答
0

首先,听起来你并没有做错什么。日志应该只显示在 CloudWatch 中,您无需执行任何操作,没有大小或时间限制。如果它们完全启动,那么我们就知道权限设置正确——除非您在运行过程中修改了 IAM。如果日志在作业中停止,则实际作业由于某种原因停止输出到 stdout/stderr,或者这是服务日志处理的操作故障。联系 AWS 支持(在此处、在 AWS 论坛中或通过技术支持)是处理此问题的正确方法 - 向 AWS 中的某个人提供帐户 ID 和工作名称将使他们能够查看到底发生了什么。

另外,很抱歉,这个问题很久没有得到答复。从这里的活动来看,似乎很多人可能遇到了这个问题。但我也猜测并希望问题是已解决的临时内部服务故障。如果有人仍然看到这个问题(2018 年 10 月之后),请发表评论,以便我们知道它仍然需要关注。或者更好的是提出一个新问题(从 SO 的角度来看并不理想,但这更有可能在 AWS 上引起人们的注意)。

感谢您使用 Amazon SageMaker,并感谢您的反馈!

-AWS 员工

于 2018-10-26T16:13:35.060 回答