我想使用来自多个数据源的 CDC 数据,例如 cassandra、mysql、Oracle ...等。我浏览了一些文档以将 cdc 数据流式传输到 kafka 并将数据存储到主题中。我在想我不能编写 spark 程序来直接从源中使用数据,而是首先将数据推送到 kafka 主题中,然后 spark 程序连接到 kafka 主题以进一步使用消息。这是我的几个问题,我试图找出答案:
- 在两者之间使用kafka而不是直接使用spark更改的记录有什么重要性?
- 在中间使用kafka不会给系统增加一些延迟?