问题标签 [apache-tez]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - 优化长时间运行的 hive SQL 查询 - 与同一张表有连接
下面的查询需要很长时间才能执行。它使用 tez 执行引擎运行。
是否有任何重写选项或优化策略可以提高查询性能?
hadoop - 在较大的数据集(~2.5 TB)上,Tez 的运行时间比 hive 慢
我们已经开始研究测试 tez 查询引擎。从最初的结果来看,我们在较小的数据集(1-10 GB)上比 Hive 获得了 30% 的性能提升,但随着数据大小的增加,Hive 的性能开始优于 Tez。就像我们使用 Tez 对大约 1.3 TB 的数据运行 hive 查询一样,它的性能比单独使用 hive 更差。(性能降低约 20%)详细信息在下面的帖子中。
http://www.jwplayer.com/blog/hive-with-tez-on-emr/
在具有 1.3 TB RAM 的集群上,我设置了以下属性:
这是正常的还是我缺少某些属性/没有正确配置某些属性?另外,我现在使用的是旧版本的 Tez。这也可能是问题吗?我仍然在 EMR 上引导最新版本的 Tez 并对其进行测试,看看是否可以做得更好
apache-pig - 错误 org.apache.pig.tools.grunt.Grunt - 错误 1066:无法打开别名的迭代器
$ pig -z tez grunt> emp = LOAD '/emp.csv, /tmp/emp/part-m-00000' using PigStorage(',') as (id:int, name:chararray, disg:chararray, sal:长, loc:chararray); 2015-12-16 21:30:21,706 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - fs.default.name 已弃用。相反,使用 fs.defaultFS grunt> dump emp;
失败的!
输入:
输出:
hadoop - Tez Pushdown Predicate 上的 Hive 在使用分区表上的窗口函数的视图中不起作用
在 Tez 上使用 Hive 对此视图运行此查询会导致全表扫描,即使 regionid 和 id 上有一个分区。Cloudera Impala 中的此查询需要 0.6 秒才能完成,而使用 Hortonworks Data Platform 和 Tez 上的 Hive 则需要 800 秒。我得出的结论是,在 Tez 上的 Hive 中,使用窗口函数可以防止谓词被下推到内部选择,从而导致全表扫描。
我尝试使用 MAX 函数将这个表连接到自身以获取最新记录,它可以工作,并在几秒钟内完成,但对于我的用例来说仍然太慢。此外,如果我删除窗口函数,谓词会被下推,这将在毫秒内返回。
如果有人有任何想法,将不胜感激。
hadoop - 特兹。慢速减速器
我对 TEZ mapreduce 工作有奇怪的行为。
我正在尝试从 Hive 读取日志数据,按 id、日期和其他一些参数将其拆分为一些块,然后写入另一个 hive 表。
Map 阶段运行速度足够快,大约需要 20 分钟,然后 reducer 开始工作,458 个 reducer 中的 453 个在接下来的 20 分钟内处理所有数据。但最后 5 个减速器工作大约 1 小时。
发生这种情况是因为我的输入数据包含一些巨大的条目,并且处理这些条目需要大量时间。这种情况的最佳做法是什么?我是否应该进行一些 hadoop/tez/hive 调整以允许对最后一个减速器进行并行处理,或者通过其他参数拆分输入数据以避免大量条目会更聪明?
感谢您的任何建议。
apache-pig - 在 Amazon EMR-4 上的 Tez 上运行 Pig
我正在尝试在亚马逊 emr 4.5.0 上的 tez 上运行 pig。该配置在没有 tez 的情况下工作,我只是想让它在 Tez 上工作。
要创建集群(从命令行),我们使用(TEZ_VERSION 定义为 0.5.2):
此外,我正在覆盖 PIG_CLASSPATH:
包含:
需要 PIG_CLASSPATH 来防止此错误:
需要 tez.lib.uris 覆盖来防止此错误:
似乎安装脚本将 tar.gz 文件写入 hdfs 中的正确位置,但是当我之后通过 ssh 登录时,该文件不存在。我认为在 EMR-4 中,引导操作在不同的时间运行,所以在 hdfs 可用之前?
毕竟,我仍然收到此错误:
尝试使用 tez 版本 0.8.2 会产生:
这似乎是由于使用的 tez 版本不同,因为它仍然打印出来:
那么有谁知道如何让亚马逊 emr(无论版本)上的猪在 tez 上运行吗?
hadoop - 在运行 tez 引擎的 Hive 中管理输入拆分大小
我想更好地了解在 tez 引擎中如何计算输入拆分。
我知道 hive.input.format 属性可以设置为HiveInputFormat(默认)或CombineHiveInputFormat(通常接受大小为 << hdfs 块大小的大量文件)。
我希望有人可以引导我了解HiveInputFormat和CombineHiveInputFormat如何计算拆分大小的差异,因为数据文件大小从小(小于一个块)到大(跨越多个块)不等。
我想指定为扫描表而生成的映射器任务的数量。对于 MR 引擎,这可以通过设置mapred.min.split.size和mapred.max.split.size属性来控制。我需要知道 tez 引擎是否有类似的配置。
此外,属性tez.grouping.max-size、tez.grouping.min-size和tez.grouping.split-waves已分别设置为 1GB、16MB 和 1.7 的值。但是我观察到创建的输入拆分不符合这些属性。
我有两个大小为 3MB 的文件用于一张表。根据设置的属性,应该只产生 1 个映射器任务,但产生了 2 个映射器任务。
hive/tez 中是否还有其他属性需要设置以启用输入拆分分组?
我将非常感谢任何投入。
谢谢!
hadoop - 何时使用 Hive 引擎 MR,何时使用 TEZ?
在什么条件下使用 Hive 引擎 TEZ 优于 MR?
各自的优缺点是什么?
hadoop - Unable to run on Apache Tez
Thanks for publishing this in detail with the screenshots as well.I have followed the same steps which you have mentioned, but I am not able to install properly.The error that I am encountering is
Error: Could not find or load main class org.apache.tez.dag.app.DAGAppMaster
I have downloaded the build version of tez. Apache Tez Version:0.8.4, Hadoop Version:2.6.0.
My tez-site.xml is
and my bashrc configuration is:
my mapreduce-site.xml is
When i try to run the sample example program it is returning the trace as
When i see in the http://localhost:8088 under stderr I found the above one.
Please help me in resolving this.Thanks in Advance!!.
hive - 无法创建 InputInitializerManager 错误 - HIVE 上的 TEZ
我已经安装了 Apache Tez 0.8.1、Hadoop 版本 2.7.0 和 Hive 版本 2.01。我能够成功运行 Map Reduce Jobs。但是当我配置 hive 并尝试运行简单的计数查询时,它返回了以下错误。从它试图查找 jar 的错误中,我已将 jar 放在类路径中,但仍然没有解决错误。
请帮我解决这个问题。在此先感谢!
更新:
遇到上述问题后,我将 hadoop-core-1.2.1.jar 复制到了 hive lib 文件夹中。之后我在启动 hive 时遇到了另一个问题。从跟踪中我可以发现传递了一些非法参数.