0

我正在从 Kafka 接收流数据,我正在使用结构化 Spark 流将其作为数据帧读取。

问题是我需要在同一列上执行多个聚合,并使用该结果执行非基于时间的窗口操作。

在 Spark Structured Streaming 中仍然无法实现的 AFAIK,因此我想在一段时间后启动 Spark 批处理作业。

我怎么能做到这一点?有没有办法像 spark submit 一样启动 python 脚本?

4

0 回答 0