apache-spark - 通过替换 AWS Redshift 表中的现有行来执行 Apache Spark 和合并操作

问问题 2019-01-05T17:27:55.957

328 次

我在 Apache Spark 应用程序中进行转换，然后必须通过合并操作从 DataFrame 更新 AWS Redshift 表：

我可以通过以下方法通过替换现有行执行合并操作并首先将 DataFrame 存储到临时表（通过 JDBC）中，然后在 Spark 应用程序完成后执行合并（如提到的 AWS 文档中所述）示例气流任务。

我只是想知道这是最优化的方式，还是我可以从我的 Spark 应用程序本身进行此合并，而无需为此目的引入额外的 Airflow 任务？

0 回答 0