我正在从 Kafka 接收流数据,我正在使用结构化 Spark 流将其作为数据帧读取。
问题是我需要在同一列上执行多个聚合,并使用该结果执行非基于时间的窗口操作。
在 Spark Structured Streaming 中仍然无法实现的 AFAIK,因此我想在一段时间后启动 Spark 批处理作业。
我怎么能做到这一点?有没有办法像 spark submit 一样启动 python 脚本?
我正在从 Kafka 接收流数据,我正在使用结构化 Spark 流将其作为数据帧读取。
问题是我需要在同一列上执行多个聚合,并使用该结果执行非基于时间的窗口操作。
在 Spark Structured Streaming 中仍然无法实现的 AFAIK,因此我想在一段时间后启动 Spark 批处理作业。
我怎么能做到这一点?有没有办法像 spark submit 一样启动 python 脚本?