这是我第一次使用 k8s,我有点失望。
我在 GKE 网络中有问题。例如,我创建了一个 Postgres pod,有时(我将 Node.JS 与 Typeorm 一起使用,但这没关系)我收到有关丢失连接的错误日志。
每1-10分钟发生一次。
我创建了一个带有 PostgreSQL 的简单 Compute Engine 实例。当我从 GKE 中的 API 使用该实例时,我没有任何问题。
Ingress 也是如此。
我正在使用 TCP 负载均衡器(包括 nginx-ingress)和 1.13.5-gke.10 版本。
我已经尝试了什么:
- 我在不同的区域重新创建了集群:europe-north-a、europe-north-c。不过我不确定其他地区。
- 我尝试了 Postgres 的集群/非集群图表。这发生在所有的通信中,不仅仅是 Postgres。
- 我检查了 kube-system 的 pod,它们没有任何错误,并且在没有任何重启的情况下运行。我没有找到网络问题的任何具体原因。
这是我收到的日志(用于 nginx):
2019/05/20 10:02:51 [error] 612#612: *15687 recv() failed (104: Connection reset by peer) while reading response header from upstream, client: 10.0.0.23, server: domain.io, request: "POST / HTTP/2.0", upstream: "http://10.0.0.19:4000/", host: "domain.io:443"
我能做些什么?我有点绝望。
更新:我不确定,但是一旦我将部署扩展到 1 个副本,它就会停止出现问题。我会继续研究,看看是否有效。