1

我最近被介绍到SparkSQL. 我们使用Spark 2.4. 我最近发现SparkSQL查询支持其加入策略的以下提示:

  • 广播提示
  • 合并提示
  • SHUFFLE_HASH 提示

不幸的是,我没有找到任何在线资料详细讨论这些提示及其应用场景。我希望了解一些关于何时在查询 Join 中使用这些提示以提高查询性能的技巧。

任何人都可以用一些例子来解释。任何帮助表示赞赏。谢谢

4

1 回答 1

0
  1. 广播连接是非常高性能的连接,它将小表的数据发送到每个执行器以执行映射侧连接。这是配置:spark.sql.autoBroadcastJoinThreshold
  2. 排序合并连接是 spark 2.3 之后的默认连接选择

有一些帖子,希望对您有所帮助: Spark SQL Joins Sort-Merge Join

于 2020-06-09T01:14:19.627 回答