我有一个 spark 结构化的蒸汽作业,它从 kafka 读取流并将输出写入 HDFS。我的问题是我需要一整天的汇总结果,直到特定时间。由于火花结构化流不支持完整/更新模式,有没有办法实现相同?
如果我在上午 10 点获得数据,我需要一个汇总结果,直到当前日期上午 10 点...
有人可以帮助如何实现相同的目标吗?
我有一个 spark 结构化的蒸汽作业,它从 kafka 读取流并将输出写入 HDFS。我的问题是我需要一整天的汇总结果,直到特定时间。由于火花结构化流不支持完整/更新模式,有没有办法实现相同?
如果我在上午 10 点获得数据,我需要一个汇总结果,直到当前日期上午 10 点...
有人可以帮助如何实现相同的目标吗?
我不确定我是否了解具体情况,但让我试着回答一下。
我建议做一个两步的过程:
/yyy-mm-dd/<offset from the day start>.parquet
2019-02-06/100000.parquet
,2019-02-06/200000.parquet
您可以使用像luigi这样的库来管理这些。