performance - 为什么选择不同的分区列很慢？

Question

我有一张桌子zhihu_answer_increment，它是按列分区的ym。当我执行 queryselect distinct(ym) from zhihu.zhihu_answer_increment;时，完成了 1 分钟。在此过程中，hive 启动了一个 map-reduce 作业。这是日志：

INFO  : MapReduce Jobs Launched: 
INFO  : Stage-Stage-1: Map: 1  Reduce: 1   Cumulative CPU: 3.59 sec   HDFS Read: 14969 HDFS Write: 106 HDFS EC Read: 0 SUCCESS
INFO  : Total MapReduce CPU Time Spent: 3 seconds 590 msec
INFO  : Completed executing command(queryId=hive_20191015113300_a6f58bad-f35b-4243-890a-a0d9ba9a5210); Time taken: 95.048 seconds
INFO  : OK

相比之下， show partitions zhihu_answer_increment;返回结果要快得多（只需几秒钟）。但我需要select distinct(ym) from zhihu.zhihu_answer_increment作为子查询。

那么如何优化这个查询呢？而且我不明白为什么它启动了mapreduce作业，就我而言，仅检查分区目录就足以进行此查询。或者我的考虑太简单了。

score 3 · Accepted Answer

如果您可以使用 shell，则使用 SHOW PARTITIONS 将分区列表转换为变量（运行速度很快）并使用 AWK 将其转换为逗号分隔的列表。然后使用带有 partition_list 的变量参数化您的配置单元脚本：

像这样的东西：

partition_list=$(hive -S -e "show partitions your_table;"  |  awk -vq="'" -F "=" 'f&&!NF{exit}{f=1}f{printf c q $2 q}{c=","}')


hive -e "select 1 from your_table where partition_column in (${partition_list}) limit 1"

performance - 为什么选择不同的分区列很慢？

1 回答 1

Related

Reference