我的 sagemaker 端点有一个 /ping,根据 AWS Cloudwatch,它大约每 5 秒被 ping 一次:
10.32.0.1 - - [01/Feb/2018:08:08:35 +0000] "GET /ping HTTP/1.1" 200 1 "-" "AHC/2.0"
但是,我不知道如果这个 ping 失败会发生什么。我在哪里可以配置健康检查?
我的 sagemaker 端点有一个 /ping,根据 AWS Cloudwatch,它大约每 5 秒被 ping 一次:
10.32.0.1 - - [01/Feb/2018:08:08:35 +0000] "GET /ping HTTP/1.1" 200 1 "-" "AHC/2.0"
但是,我不知道如果这个 ping 失败会发生什么。我在哪里可以配置健康检查?
如果在 Endpoint 创建期间 ping 始终失败,我们会将容器视为不健康,并通过错误消息使 Endpoint 失败:
“ClientError:生产变体 [xxx] 的主容器未通过 ping 运行状况检查。请检查此端点的 CloudWatch 日志。”
如果在 Endpoint 创建后 ping 始终失败(Endpoint 已启动并正在运行),我们将尽最大努力更换实例,同时保持您的 Endpoint 正常运行。
您可以实施更复杂的健康检查。但是,ping 响应应在 2 秒超时内返回。
希望这可以帮助!
-韩
Amazon SageMaker 是一项托管服务,服务团队的职责是确保它可用。他们正在监视您的端点,并会在需要时为您替换容器和实例。
您可以使用 CloudWatch 指标 ( https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html ) 监控端点的性能,但它更倾向于正确选择实例类型和您想要拥有的实例数量(您的成本)而不是(ping)可用性。