在我正在处理的集群上,每个用户都获得了 60GB 的 Hadoop 配额。从历史上看,我正在处理的项目会生成很多 Hive 查询。为了让事情更快地工作,我试图并行这些查询(这些查询是不相关的),但结果是目录 /user/{myusername}/.staging/ 被 job_{someid} 目录填充,而这些目录又被填充使用蜂巢罐并非常快速地消耗这些 60GB。虽然我可以限制并行化因素,但我也想看看是否可以要求 Hive 将这些 jar 放在不同的目录中。在我有更多空间的地方说 /tmp/{myusername}。
知道如何告诉 Hive/Beeline 在 /tmp/{myusername} 下创建 .staging 目录吗?