我们使用在 ALB 后面的 AWS ECS 中运行的 node js 后端服务器。然后,我们有 AWS API 网关和调用 ALB 的代理 lambda。这已经在生产环境中运行了几个月,几天前突然我们开始看到来自一些 API 调用的 502 错误。
我检查了代理 lambda 日志以查看 502 是从 ALB 返回的。但是,当我检查我的节点应用程序日志时,没有失败的请求,实际上在这些时间戳似乎没有请求到达应用程序。然后我在 ALB 上启用了访问日志,它只显示 200/201 响应 - 没有 5xx。我现在有点困惑下一步该往哪里看。什么会导致我的 ALB 返回 502 而 ALB 访问日志中不存在此错误?什么可能导致请求无法到达我在 ECS 中的节点应用程序?有谁知道接下来要检查哪些日志或如何查明错误?ECS 中的某些层会导致这些症状吗?我在我的 docker 容器或任何东西中看不到任何错误。
它似乎是突然发生的,在一段时间内多达 50 个失败的请求,然后在几个小时内一切正常。