我的生产中有一个 4 节点 kafka 集群,我们使用自定义分区器,它执行 id 的 mod 64 来确定分区。自上周以来,我们的 1 个节点上的 kafka messages_in 速率一直不平衡,如附图所示。粉色线显示 kafka01 节点上的消息速率,蓝黄色线显示所有其他 3 个框上的速率消息。我正在使用 datadog 来监控和使用指标 kafka.messages_in.rate 。假设 id 分布没有变化,那么在 rate 中消息的分布应该没有变化。我为调试问题所采取的步骤是
- 集群在 4 个节点中的每个节点上有 16 个领导者进行平衡。
- ISR 在 4 个盒子中也是平衡的,每个盒子有 32 个 ISR [复制因子为 2]
- 所有 4 个盒子上的网络进出几乎相等。
请求任何帮助或领域/指标,以调试此异常。