我是新角色,其中一部分需要在托管和外部配置单元表中创建/插入数据。我们在 hive 会话开始时运行了几行“设置”参数,但我遇到了一些情况,例如,文件被合并为某些分区(文件数量很少),但不是其他人(许多较小的文件),似乎是随机的日子。
我的问题是:什么时候需要输入我所有的 Hive 设置参数?是否需要为我正在运行的每一个插入/命令/语句完成?还是在我启动 Hive 时仅在 Hive 会话开始时进行一次?
这些是我们一直在使用的标准设置参数:
SET mapred.job.queue.name=yometrics;
SET hive.exec.dynamic.partition=true;
SET hive.exec.dynamic.partition.mode=nonstrict;
SET hive.exec.max.dynamic.partitions=2000;
SET hive.exec.max.dynamic.partitions.pernode=2000;
SET hive.merge.tezfiles=true;