5

我的 sagemaker 端点有一个 /ping,根据 AWS Cloudwatch,它大约每 5 秒被 ping 一次:

10.32.0.1 - - [01/Feb/2018:08:08:35 +0000] "GET /ping HTTP/1.1" 200 1 "-" "AHC/2.0"

但是,我不知道如果这个 ping 失败会发生什么。我在哪里可以配置健康检查?

4

2 回答 2

2

如果在 Endpoint 创建期间 ping 始终失败,我们会将容器视为不健康,并通过错误消息使 Endpoint 失败:

“ClientError:生产变体 [xxx] 的主容器未通过 ping 运行状况检查。请检查此端点的 CloudWatch 日志。”

如果在 Endpoint 创建后 ping 始终失败(Endpoint 已启动并正在运行),我们将尽最大努力更换实例,同时保持您的 Endpoint 正常运行。

这是文档页面:https ://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-inference-code.html#your-algorithms-inference-algo-ping-requests

您可以实施更复杂的健康检查。但是,ping 响应应在 2 秒超时内返回。

希望这可以帮助!

-韩

于 2018-08-24T20:47:51.940 回答
0

Amazon SageMaker 是一项托管服务,服务团队的职责是确保它可用。他们正在监视您的端点,并会在需要时为您替换容器和实例。

您可以使用 CloudWatch 指标 ( https://docs.aws.amazon.com/sagemaker/latest/dg/monitoring-cloudwatch.html ) 监控端点的性能,但它更倾向于正确选择实例类型和您想要拥有的实例数量(您的成本)而不是(ping)可用性。

于 2018-02-03T22:20:03.353 回答