我正在尝试在 tez 上使用 Hive 来查询存储在 S3 中的兽人格式数据。Tez AM 定时任务很慢,很多 Map 任务长时间停留在“PENDING”。
集群中有足够的资源(我会说已经足够了。有超过 6TB 的内存和超过 1000 个可用的 vcore,在这个作业中每个容器只花费 2GB 内存。这是在 yarn 集群中运行的唯一作业) ,但我只是在调度任务方面做得很慢。
有什么办法可以加快这个过程吗?
我有同样的问题。
我决定改变 Hive 的引擎。
试试这个命令:
设置 hive.execution.engine = mr;
在任何情况下,MR 都是最好的 tez。
AWS 建议使用 TEZ,但并非总是适用于所有情况。您可以使用 MapReduce。
https://docs.amazonaws.cn/en_us/emr/latest/ReleaseGuide/emr-hive-differences.html