我们已经开始研究测试 tez 查询引擎。从最初的结果来看,我们在较小的数据集(1-10 GB)上比 Hive 获得了 30% 的性能提升,但随着数据大小的增加,Hive 的性能开始优于 Tez。就像我们使用 Tez 对大约 1.3 TB 的数据运行 hive 查询一样,它的性能比单独使用 hive 更差。(性能降低约 20%)详细信息在下面的帖子中。
http://www.jwplayer.com/blog/hive-with-tez-on-emr/
在具有 1.3 TB RAM 的集群上,我设置了以下属性:
set tez.task.resource.memory.mb=10000;
set tez.am.resource.memory.mb=59205;
set tez.am.launch.cmd-opts =-Xmx47364m;
set hive.tez.container.size=59205;
set hive.tez.java.opts=-Xmx47364m;
set tez.am.grouping.max-size=36700160000;
这是正常的还是我缺少某些属性/没有正确配置某些属性?另外,我现在使用的是旧版本的 Tez。这也可能是问题吗?我仍然在 EMR 上引导最新版本的 Tez 并对其进行测试,看看是否可以做得更好