3

我是火花流的新手,我有一个关于它的使用的一般性问题。我目前正在实现一个从 Kafka 主题流式传输数据的应用程序。

使用应用程序只运行一次批处理是否是一种常见的场景,例如一天结束,从主题中收集所有数据,进行一些聚合和转换等?

这意味着在使用 spark-submit 启动应用程序后,所有这些内容将在一批中执行,然后应用程序将被关闭。还是构建火花流以连续批量运行无休止和永久的流数据?

4

1 回答 1

2

您可以使用 kafka-stream api,并固定一个窗口时间来对主题中的事件执行聚合和转换,一次只能执行一批。有关窗口的移动信息,请检查此https://kafka.apache.org/21/documentation/streams/developer-guide/dsl-api.html#windowing

于 2018-11-28T20:50:39.260 回答