我想使用以下选项执行 Hive 手册( Bucketed Map Join )中描述的排序合并连接
set hive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;
set hive.optimize.bucketmapjoin = true;
set hive.optimize.bucketmapjoin.sortedmerge = true;
两个表都必须在连接列上进行存储和排序。我的问题是 - 排序必须是全局的,即第一个桶中的键小于第二个桶中的键,还是每个桶都排序就足够了?