我们的一个 Kafka 代理在 8 核机器上的平均负载非常高(平均约为 8)。虽然这应该没问题,但我们的集群似乎仍然面临问题,并且生产者未能以通常的速度刷新消息。
经过进一步调查,我发现我的 java 进程等待 IO 的时间太长了,几乎 99.99% 的时间,到目前为止,我相信这是一个问题。
请注意,即使负载相对较低(大约 100-150 Kbps)也会发生这种情况,我已经看到即使在集群中输入 2 Mbps 数据时它也能完美运行。
我不确定这个问题是否是因为 Kafka,我假设这不是因为所有其他代理在此期间都运行良好,并且我们的数据在 5 个代理之间完美分配。
请帮助我找到问题的根本原因。我应该去哪里寻找问题?有没有其他工具可以帮助我调试这个问题?
我们在 m5.2x 大型机器上使用 1 TB 安装的 EBS 卷。
请随时提出任何问题。