我有一个每周一次批量更新的 exchangeRates 表。这将由跨不同集群的其他批处理和流式作业使用 - 因此我想将其保存为一个持久的共享表,以供所有作业共享。
allExchangeRatesDF.write.saveAsTable("exchangeRates")
那么如何最好(对于管理此数据的批处理作业)优雅地更新表内容(实际上完全覆盖它) - 考虑到各种 Spark 作业作为它的消费者,特别是在某些 24/7 结构化流中使用它?
我检查了 API,也许我遗漏了一些明显的东西!很可能。
谢谢!