apache-kafka - kafka 磁盘在大量读取期间拖拽写入并在 kafka 生产者中导致“队列已满”错误

Question

我们有 6 个 kafka 代理，具有 256GB RAM、24c/48T，它们托管 20 个在 raid10 中配置的 1.8TB SAS 10K rpm 磁盘。

有两个 Spark Streaming 应用程序

有 21 个注入器实例以 6K 事件/秒的速率连续写入该主题。他们使用 librdkafka poroducer 为 kafka 制作事件。

当流媒体应用程序醒来时，他们的第一项工作是阅读主题。一旦他们这样做，kafka 磁盘中的 %util 会在 30 秒到 60 秒内达到 90-100%，同时所有注入器实例都会从他们的 kafka 生产者那里收到“队列已满”错误。这是生产者配置：

从这张图中看不到，但在高 util% 期间，有一段时间写入为 0，我们假设在这些时间段内，注入器的生产者的队列已满，因此抛出“队列已满”错误。

值得一提的是，我们在kafka机器中使用了deadline IO调度器，它优先考虑读取操作。

关于如何释放写入压力，我们有几个想法：

我写这个问题是为了验证我们是否走在正确的轨道上，并且由于 raid10、deadline IO 调度程序以及同时读取过多，操作系统确实在读取期间写入。

你怎么看？

score 0 · Accepted Answer

当你问这是否朝着正确的方向发展时：

我认为你提到的步骤是有道理的。

一般来说，如果它必须与其他假设它们将有一些可用 IO 的东西共享这些磁盘，我总是建议不要让任何东西拉取 100% 的磁盘容量。

1 回答 1