0

我想使用来自多个数据源的 CDC 数据,例如 cassandra、mysql、Oracle ...等。我浏览了一些文档以将 cdc 数据流式传输到 kafka 并将数据存储到主题中。我在想我不能编写 spark 程序来直接从源中使用数据,而是首先将数据推送到 kafka 主题中,然后 spark 程序连接到 kafka 主题以进一步使用消息。这是我的几个问题,我试图找出答案:

  1. 在两者之间使用kafka而不是直接使用spark更改的记录有什么重要性?
  2. 在中间使用kafka不会给系统增加一些延迟?
4

1 回答 1

0

您当然可以编写自己的 Spark 应用程序来使用数据,但这样做感觉就像是在重新发明轮子。卡夫卡正在为你解决这个问题,所以你不必这样做。

此外,Kafka 支持从各种来源获取输入以及将数据发布给多个订阅者,包括 Spark 应用程序。

使用 Kafka,可以更轻松地构建应用程序,因为大多数技术都有可用的连接器。干杯!

于 2020-12-15T04:54:09.750 回答