1

我正在尝试在 tez 上使用 Hive 来查询存储在 S3 中的兽人格式数据。Tez AM 定时任务很慢,很多 Map 任务长时间停留在“PENDING”。 在此处输入图像描述

集群中有足够的资源(我会说已经足够了。有超过 6TB 的内存和超过 1000 个可用的 vcore,在这个作业中每个容器只花费 2GB 内存。这是在 yarn 集群中运行的唯一作业) ,但我只是在调度任务方面做得很慢。

有什么办法可以加快这个过程吗?

4

1 回答 1

0

我有同样的问题。

我决定改变 Hive 的引擎。

试试这个命令:

设置 hive.execution.engine = mr;

在任何情况下,MR 都是最好的 tez。

AWS 建议使用 TEZ,但并非总是适用于所有情况。您可以使用 MapReduce。

https://docs.amazonaws.cn/en_us/emr/latest/ReleaseGuide/emr-hive-differences.html

于 2018-12-17T15:19:31.857 回答