问题标签 [apache-tez]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
256 浏览

hadoop - 是否可以将一个 oozie 动作的输出用于其他动作而无需从 hdfs 保存和加载?子工作流选项在这方面有用吗?

我必须编写一个运行多个猪动作的 oozie 工作流。这些猪动作可能是相互依赖的。我的意思是一个猪脚本的输出将对其他猪有用。我想避免从 hdfs 进行多次保存和加载。这是如何实现的?我可以使用 TEZ DAG 将所有猪脚本组合成 DAG 结构并从 Oozie 运行一个 Java 操作吗?

0 投票
1 回答
759 浏览

hadoop - 无法在 Apache Tez 上运行 Pig latin 脚本

我有一个伪分布式单集群 Ubuntu 机器。我编写了一个简单的猪拉丁脚本,在使用 mapreduce 作为执行模式时运行良好。但是当我使用 tez 作为执行模式使用 -x 开关时,我得到了以下错误

2015-08-17 17:12:22,344 [PigTezLauncher-0] 错误 org.apache.pig.backend.hadoop.executionengine.tez.TezJob - 无法提交 DAG org.apache.tez.dag.api.SessionNotRunning:TezSession 已经关闭 在 org.apache.tez.client.TezClient.waitTillReady(TezClient.java:603) 在 org.apache.pig.backend.hadoop.executionengine.tez.TezSessionManager.createSession(TezSessionManager.java:100) 在 org.apache.pig .backend.hadoop.executionengine.tez.TezSessionManager.getClient(TezSessionManager.java:195) 在 org.apache.pig.backend.hadoop.executionengine.tez.TezJob.run(TezJob.java:159) 在 org.apache.pig .backend.hadoop.executionengine.tez.TezLauncher$1.run(TezLauncher.java:167) at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471) at java.util.concurrent.FutureTask.run( FutureTask.java:262) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread.run (线程.java:745)

我想知道这个异常的含义以及如何解决这个问题。

已解决: 问题在于 pig 和 tez 的版本。用 pig 0.14 安装了 tez 0.5,它工作了。

0 投票
0 回答
2064 浏览

hadoop - 使用 TEZ 创建 Hive 索引

是否可以使用 Tez 而不是 MR 作业生成索引?当我们尝试设置 hive.execution.engine=Tez 并尝试生成索引时,索引创建失败。以下是我使用过的命令列表:

CREATE TABLE table02(column1 String, column2 bigint, column3 string); CREATE INDEX table02_index ON TABLE table02 (column3) AS 'COMPACT' WITH DEFERRED REBUILD; ALTER INDEX table02_index ON table02 REBUILD;

索引创建失败并显示以下错误消息: 失败:执行错误,从 org.apache.hadoop.hive.ql.exec.tez.TezTask 返回代码 1

那么,对于表上的索引创建,我们是否总是必须设置 hive.execution.engine=mr 即使我们想使用 TEZ 对该表中的数据执行查询?TEZ有限制吗?

0 投票
2 回答
5096 浏览

hadoop - Apache Drill的性能

是否有任何性能基准(真正的)可以比较 Stinger、Impala 和 Drill?此外,这是首选 - 我的用例将主要针对 Hive 之上的临时交互式查询。谢谢。

0 投票
0 回答
256 浏览

apache-pig - 使用来自 hue 的 pig 运行 tez 时出错。是配置问题还是我使用了错误的参数

我正在对 pig+tez 进行一些探索,发现它可以在 CLI 中使用,并且包含-x tez与 pig 的参数。然而,当从 hue 运行它时,同样应该使用 pig 参数 -exectypetez ,但它失败并出现以下错误消息。

在此处输入图像描述

0 投票
2 回答
1614 浏览

merge - 如何减少 Hive 中 SQL“Alter Table/Partition Concatenate”的生成文件?

蜂巢版本:1.2.1

配置:

总部:

我使用 HQL 来合并特定表/分区的文件。但是,执行后输出目录下还有很多文件;它们的大小远远小于256000000。那么如何减少输出文件的数量。

顺便说一句,使用 MapReduce 代替 Tez 也没有用。

0 投票
1 回答
2126 浏览

hive - tez 模式下的 Oozie hive 脚本调度

我尝试通过传递 hadoop 属性以在工作流 xml 文件中引用 tez jar 文件来安排 hive 工作流 xml 文件以在 tez 模式下运行 hive 脚本,如下所示。

此外,我将 hive-site xml 文件属性 hive.execution.engine 更改为 tez 模式。

当我使用 oozie 安排工作流程时。我得到如下错误

任何人都可以说如何纠正这个问题并安排我的工作流 xml 文件并在 tez 模式下运行 hive 脚本。

0 投票
3 回答
5345 浏览

hive - Hive tez 执行错误

我正在运行 hive 查询,在设置 hive.execution.engine=tez 时出现以下错误,而查询在 engine=MR 下工作。

我的查询是内部联接,数据很大。

另一件事是我以前遇到过这个问题。但是 tez 后来工作了,所以我认为这是关于 hive 的一些不稳定因素。

0 投票
3 回答
1282 浏览

sql - Hive :优化长时间运行的查询

在 50GB 大小的员工日志表上运行的简单 Hive SQL 查询运行了数小时。

只有4-5个部门,每个部门都有大量员工。

它在 1TB 内存上使用 Hive 0.14 + Tez 运行。有没有办法优化这个代码块以获得更好的性能?

修改 1
用 collect_list 替换 distinct 进行测试。

SELECT dept, size(collect_list(emp_id)) nb_emps FROM emp_log GROUP BY dept

得到以下错误,
Status: Failed Vertex failed, vertexName=Reducer 2,vertexId=vertex_1446976653619_0043_1_02, diagnostics=[Task failed,taskId=task_1446976653619_0043_1_02_000282, diagnostics=[TaskAttempt 0 failed, info=[Error: Failure while running task:java.lang.RuntimeException: java.lang.OutOfMemoryError: Java heap space

0 投票
0 回答
1686 浏览

hadoop - hive join 与 like 运算符

我有两个使用 ORC 压缩的表,并且使用 TEZ 作为执行引擎。Table_a 包含超过 900k 条记录,table_b 包含 1700 万条记录。这个查询需要更长的时间我已经等了 2 天,但查询执行没有完成。我在这个查询中做错了什么。