问题标签 [apache-tez]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
980 浏览

sql - 优化长时间运行的 hive SQL 查询 - 与同一张表有连接

下面的查询需要很长时间才能执行。它使用 tez 执行引擎运行。

是否有任何重写选项或优化策略可以提高查询性能?

0 投票
0 回答
629 浏览

hadoop - 在较大的数据集(~2.5 TB)上,Tez 的运行时间比 hive 慢

我们已经开始研究测试 tez 查询引擎。从最初的结果来看,我们在较小的数据集(1-10 GB)上比 Hive 获得了 30% 的性能提升,但随着数据大小的增加,Hive 的性能开始优于 Tez。就像我们使用 Tez 对大约 1.3 TB 的数据运行 hive 查询一样,它的性能比单独使用 hive 更差。(性能降低约 20%)详细信息在下面的帖子中。

http://www.jwplayer.com/blog/hive-with-tez-on-emr/

在具有 1.3 TB RAM 的集群上,我设置了以下属性:

这是正常的还是我缺少某些属性/没有正确配置某些属性?另外,我现在使用的是旧版本的 Tez。这也可能是问题吗?我仍然在 EMR 上引导最新版本的 Tez 并对其进行测试,看看是否可以做得更好

0 投票
0 回答
182 浏览

apache-pig - 错误 org.apache.pig.tools.grunt.Grunt - 错误 1066:无法打开别名的迭代器

$ pig -z tez grunt> emp = LOAD '/emp.csv, /tmp/emp/part-m-00000' using PigStorage(',') as (id:int, name:chararray, disg:chararray, sal:长, loc:chararray); 2015-12-16 21:30:21,706 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - fs.default.name 已弃用。相反,使用 fs.defaultFS grunt> dump emp;

失败的!

输入:

输出:

0 投票
2 回答
503 浏览

hadoop - Tez Pushdown Predicate 上的 Hive 在使用分区表上的窗口函数的视图中不起作用

在 Tez 上使用 Hive 对此视图运行此查询会导致全表扫描,即使 regionid 和 id 上有一个分区。Cloudera Impala 中的此查询需要 0.6 秒才能完成,而使用 Hortonworks Data Platform 和 Tez 上的 Hive 则需要 800 秒。我得出的结论是,在 Tez 上的 Hive 中,使用窗口函数可以防止谓词被下推到内部选择,从而导致全表扫描。

我尝试使用 MAX 函数将这个表连接到自身以获取最新记录,它可以工作,并在几秒钟内完成,但对于我的用例来说仍然太慢。此外,如果我删除窗口函数,谓词会被下推,这将在毫秒内返回。

如果有人有任何想法,将不胜感激。

0 投票
1 回答
2818 浏览

hadoop - 特兹。慢速减速器

我对 TEZ mapreduce 工作有奇怪的行为。

我正在尝试从 Hive 读取日志数据,按 id、日期和其他一些参数将其拆分为一些块,然后写入另一个 hive 表。

Map 阶段运行速度足够快,大约需要 20 分钟,然后 reducer 开始工作,458 个 reducer 中的 453 个在接下来的 20 分钟内处理所有数据。但最后 5 个减速器工作大约 1 小时。

发生这种情况是因为我的输入数据包含一些巨大的条目,并且处理这些条目需要大量时间。这种情况的最佳做法是什么?我是否应该进行一些 hadoop/tez/hive 调整以允许对最后一个减速器进行并行处理,或者通过其他参数拆分输入数据以避免大量条目会更聪明?

感谢您的任何建议。

0 投票
1 回答
385 浏览

apache-pig - 在 Amazon EMR-4 上的 Tez 上运行 Pig

我正在尝试在亚马逊 emr 4.5.0 上的 tez 上运行 pig。该配置在没有 tez 的情况下工作,我只是想让它在 Tez 上工作。

要创建集群(从命令行),我们使用(TEZ_VERSION 定义为 0.5.2):

此外,我正在覆盖 PIG_CLASSPATH:

包含:

需要 PIG_CLASSPATH 来防止此错误:

需要 tez.lib.uris 覆盖来防止此错误:

似乎安装脚本将 tar.gz 文件写入 hdfs 中的正确位置,但是当我之后通过 ssh 登录时,该文件不存在。我认为在 EMR-4 中,引导操作在不同的时间运行,所以在 hdfs 可用之前?

毕竟,我仍然收到此错误:

尝试使用 tez 版本 0.8.2 会产生:

这似乎是由于使用的 tez 版本不同,因为它仍然打印出来:

那么有谁知道如何让亚马逊 emr(无论版本)上的猪在 tez 上运行吗?

0 投票
0 回答
2312 浏览

hadoop - 在运行 tez 引擎的 Hive 中管理输入拆分大小

我想更好地了解在 tez 引擎中如何计算输入拆分。

我知道 hive.input.format 属性可以设置为HiveInputFormat(默认)或CombineHiveInputFormat(通常接受大小为 << hdfs 块大小的大量文件)。

我希望有人可以引导我了解HiveInputFormatCombineHiveInputFormat如何计算拆分大小的差异,因为数据文件大小从小(小于一个块)到大(跨越多个块)不等。

我想指定为扫描表而生成的映射器任务的数量。对于 MR 引擎,这可以通过设置mapred.min.split.sizemapred.max.split.size属性来控制。我需要知道 tez 引擎是否有类似的配置。

此外,属性tez.grouping.max-sizetez.grouping.min-sizetez.grouping.split-waves已分别设置为 1GB、16MB 和 1.7 的值。但是我观察到创建的输入拆分不符合这些属性。

我有两个大小为 3MB 的文件用于一张表。根据设置的属性,应该只产生 1 个映射器任务,但产生了 2 个映射器任务。

hive/tez 中是否还有其他属性需要设置以启用输入拆分分组?

我将非常感谢任何投入。

谢谢!

0 投票
1 回答
1040 浏览

hadoop - 何时使用 Hive 引擎 MR,何时使用 TEZ?

在什么条件下使用 Hive 引擎 TEZ 优于 MR?

各自的优缺点是什么?

0 投票
2 回答
3711 浏览

hadoop - Unable to run on Apache Tez

Thanks for publishing this in detail with the screenshots as well.I have followed the same steps which you have mentioned, but I am not able to install properly.The error that I am encountering is

Error: Could not find or load main class org.apache.tez.dag.app.DAGAppMaster

I have downloaded the build version of tez. Apache Tez Version:0.8.4, Hadoop Version:2.6.0.

My tez-site.xml is

and my bashrc configuration is:

my mapreduce-site.xml is

When i try to run the sample example program it is returning the trace as

When i see in the http://localhost:8088 under stderr I found the above one.

Please help me in resolving this.Thanks in Advance!!.

0 投票
1 回答
2105 浏览

hive - 无法创建 InputInitializerManager 错误 - HIVE 上的 TEZ

我已经安装了 Apache Tez 0.8.1、Hadoop 版本 2.7.0 和 Hive 版本 2.01。我能够成功运行 Map Reduce Jobs。但是当我配置 hive 并尝试运行简单的计数查询时,它返回了以下错误。从它试图查找 jar 的错误中,我已将 jar 放在类路径中,但仍然没有解决错误。

请帮我解决这个问题。在此先感谢!

更新:

遇到上述问题后,我将 hadoop-core-1.2.1.jar 复制到了 hive lib 文件夹中。之后我在启动 hive 时遇到了另一个问题。从跟踪中我可以发现传递了一些非法参数.