apache-spark - 为什么使用kafka存储cdc数据而不是直接通过spark消费？

Question

我想使用来自多个数据源的 CDC 数据，例如 cassandra、mysql、Oracle ...等。我浏览了一些文档以将 cdc 数据流式传输到 kafka 并将数据存储到主题中。我在想我不能编写 spark 程序来直接从源中使用数据，而是首先将数据推送到 kafka 主题中，然后 spark 程序连接到 kafka 主题以进一步使用消息。这是我的几个问题，我试图找出答案：

在两者之间使用kafka而不是直接使用spark更改的记录有什么重要性？
在中间使用kafka不会给系统增加一些延迟？

score 0 · Accepted Answer

您当然可以编写自己的 Spark 应用程序来使用数据，但这样做感觉就像是在重新发明轮子。卡夫卡正在为你解决这个问题，所以你不必这样做。

此外，Kafka 支持从各种来源获取输入以及将数据发布给多个订阅者，包括 Spark 应用程序。

使用 Kafka，可以更轻松地构建应用程序，因为大多数技术都有可用的连接器。干杯!

apache-spark - 为什么使用kafka存储cdc数据而不是直接通过spark消费？

1 回答 1

Related

Reference