hadoop - 在较大的数据集（~2.5 TB）上，Tez 的运行时间比 hive 慢

翻译自：https://stackoverflow.com/questions/34298765 2015-12-15T20:27:49.927

629 次

我们已经开始研究测试 tez 查询引擎。从最初的结果来看，我们在较小的数据集（1-10 GB）上比 Hive 获得了 30% 的性能提升，但随着数据大小的增加，Hive 的性能开始优于 Tez。就像我们使用 Tez 对大约 1.3 TB 的数据运行 hive 查询一样，它的性能比单独使用 hive 更差。（性能降低约 20%）详细信息在下面的帖子中。

http://www.jwplayer.com/blog/hive-with-tez-on-emr/

在具有 1.3 TB RAM 的集群上，我设置了以下属性：

set tez.task.resource.memory.mb=10000;
set tez.am.resource.memory.mb=59205;
set tez.am.launch.cmd-opts =-Xmx47364m;
set hive.tez.container.size=59205;
set hive.tez.java.opts=-Xmx47364m;
set tez.am.grouping.max-size=36700160000;

这是正常的还是我缺少某些属性/没有正确配置某些属性？另外，我现在使用的是旧版本的 Tez。这也可能是问题吗？我仍然在 EMR 上引导最新版本的 Tez 并对其进行测试，看看是否可以做得更好

hadoop - 在较大的数据集（~2.5 TB）上，Tez 的运行时间比 hive 慢

0 回答 0

Related

Reference