0

我的生产中有一个 4 节点 kafka 集群,我们使用自定义分区器,它执行 id 的 mod 64 来确定分区。自上周以来,我们的 1 个节点上的 kafka messages_in 速率一直不平衡,如附图所示在此处输入图像描述。粉色线显示 kafka01 节点上的消息速率,蓝黄色线显示所有其他 3 个框上的速率消息。我正在使用 datadog 来监控和使用指标 kafka.messages_in.rate 。假设 id 分布没有变化,那么在 rate 中消息的分布应该没有变化。我为调试问题所采取的步骤是

  1. 集群在 4 个节点中的每个节点上有 16 个领导者进行平衡。
  2. ISR 在 4 个盒子中也是平衡的,每个盒子有 32 个 ISR [复制因子为 2]
  3. 所有 4 个盒子上的网络进出几乎相等。

请求任何帮助或领域/指标,以调试此异常。

对于将来正在搜索此内容的人 https://mail-archives.apache.org/mod_mbox/kafka-users/201710.mbox/%3CCALaekbwkSKapqPwsyuAoHGiSnc1+3jF2wF+2FDZbAVx61E+c2w@mail.gmail.com%3E

4

1 回答 1

1

需要调试的东西很少

  • 启用代理日志以进行跟踪
  • 比较一个收到更多请求的日志和一次在短时间内收到较少请求的日志,这将有足够的生产请求进行分析以进行比较
  • 在日志中搜索 ProducerRequest ,它将让您了解分区是否按预期进行,并提供有关它从哪个主机接收更多请求的信息。
于 2018-04-02T08:42:22.317 回答