1

我在 Apache Spark 应用程序中进行转换,然后必须通过合并操作从 DataFrame 更新 AWS Redshift 表:

  1. 为了避免可能的重复,我需要根据某些条件从 Redshift 表中删除现有记录。
  2. 将 DataFrame 中的所有行插入 Redshift 表中。

我可以通过以下方法通过替换现有行执行合并操作并首先将 DataFrame 存储到临时表(通过 JDBC)中,然后在 Spark 应用程序完成后执行合并(如提到的 AWS 文档中所述)示例气流任务。

我只是想知道这是最优化的方式,还是我可以从我的 Spark 应用程序本身进行此合并,而无需为此目的引入额外的 Airflow 任务?

4

0 回答 0