问题标签 [apache-tez]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

173 问题

0 投票

2 回答

256 浏览

hadoop - 是否可以将一个 oozie 动作的输出用于其他动作而无需从 hdfs 保存和加载？子工作流选项在这方面有用吗？

我必须编写一个运行多个猪动作的 oozie 工作流。这些猪动作可能是相互依赖的。我的意思是一个猪脚本的输出将对其他猪有用。我想避免从 hdfs 进行多次保存和加载。这是如何实现的？我可以使用 TEZ DAG 将所有猪脚本组合成 DAG 结构并从 Oozie 运行一个 Java 操作吗？

2015-07-24T14:47:25.157

0 投票

1 回答

759 浏览

hadoop - 无法在 Apache Tez 上运行 Pig latin 脚本

我有一个伪分布式单集群 Ubuntu 机器。我编写了一个简单的猪拉丁脚本，在使用 mapreduce 作为执行模式时运行良好。但是当我使用 tez 作为执行模式使用 -x 开关时，我得到了以下错误

2015-08-17 17:12:22,344 [PigTezLauncher-0] 错误 org.apache.pig.backend.hadoop.executionengine.tez.TezJob - 无法提交 DAG org.apache.tez.dag.api.SessionNotRunning：TezSession 已经关闭 在 org.apache.tez.client.TezClient.waitTillReady(TezClient.java:603) 在 org.apache.pig.backend.hadoop.executionengine.tez.TezSessionManager.createSession(TezSessionManager.java:100) 在 org.apache.pig .backend.hadoop.executionengine.tez.TezSessionManager.getClient(TezSessionManager.java:195) 在 org.apache.pig.backend.hadoop.executionengine.tez.TezJob.run(TezJob.java:159) 在 org.apache.pig .backend.hadoop.executionengine.tez.TezLauncher$1.run(TezLauncher.java:167) at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471) at java.util.concurrent.FutureTask.run( FutureTask.java:262) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread.run （线程.java：745）

我想知道这个异常的含义以及如何解决这个问题。

已解决： 问题在于 pig 和 tez 的版本。用 pig 0.14 安装了 tez 0.5，它工作了。

hadoop apache-pig apache-tez

2015-08-17T12:11:32.597

0 投票

0 回答

2064 浏览

hadoop - 使用 TEZ 创建 Hive 索引

是否可以使用 Tez 而不是 MR 作业生成索引？当我们尝试设置 hive.execution.engine=Tez 并尝试生成索引时，索引创建失败。以下是我使用过的命令列表：

CREATE TABLE table02(column1 String, column2 bigint, column3 string); CREATE INDEX table02_index ON TABLE table02 (column3) AS 'COMPACT' WITH DEFERRED REBUILD; ALTER INDEX table02_index ON table02 REBUILD;

索引创建失败并显示以下错误消息： 失败：执行错误，从 org.apache.hadoop.hive.ql.exec.tez.TezTask 返回代码 1

那么，对于表上的索引创建，我们是否总是必须设置 hive.execution.engine=mr 即使我们想使用 TEZ 对该表中的数据执行查询？TEZ有限制吗？

hadoop hive apache-tez

2015-08-18T09:22:18.733

0 投票

2 回答

5096 浏览

hadoop - Apache Drill的性能

是否有任何性能基准（真正的）可以比较 Stinger、Impala 和 Drill？此外，这是首选 - 我的用例将主要针对 Hive 之上的临时交互式查询。谢谢。

hadoop hive impala apache-drill apache-tez

2015-08-22T06:44:37.843

0 投票

0 回答

256 浏览

apache-pig - 使用来自 hue 的 pig 运行 tez 时出错。是配置问题还是我使用了错误的参数

我正在对 pig+tez 进行一些探索，发现它可以在 CLI 中使用，并且包含-x tez与 pig 的参数。然而，当从 hue 运行它时，同样应该使用 pig 参数 -exectypetez ，但它失败并出现以下错误消息。

apache-pig hue apache-tez

2015-08-27T16:40:59.133

0 投票

2 回答

1614 浏览

merge - 如何减少 Hive 中 SQL“Alter Table/Partition Concatenate”的生成文件？

蜂巢版本：1.2.1

配置：

总部：

我使用 HQL 来合并特定表/分区的文件。但是，执行后输出目录下还有很多文件；它们的大小远远小于256000000。那么如何减少输出文件的数量。

顺便说一句，使用 MapReduce 代替 Tez 也没有用。

merge hive concatenation apache-tez

2015-10-16T09:01:08.120

0 投票

1 回答

2126 浏览

hive - tez 模式下的 Oozie hive 脚本调度

我尝试通过传递 hadoop 属性以在工作流 xml 文件中引用 tez jar 文件来安排 hive 工作流 xml 文件以在 tez 模式下运行 hive 脚本，如下所示。

此外，我将 hive-site xml 文件属性 hive.execution.engine 更改为 tez 模式。

当我使用 oozie 安排工作流程时。我得到如下错误

任何人都可以说如何纠正这个问题并安排我的工作流 xml 文件并在 tez 模式下运行 hive 脚本。

hive bigdata oozie apache-tez

2015-11-02T07:26:58.043

0 投票

3 回答

5345 浏览

hive - Hive tez 执行错误

我正在运行 hive 查询，在设置 hive.execution.engine=tez 时出现以下错误，而查询在 engine=MR 下工作。

我的查询是内部联接，数据很大。

另一件事是我以前遇到过这个问题。但是 tez 后来工作了，所以我认为这是关于 hive 的一些不稳定因素。

hive apache-tez

2015-11-05T22:05:47.900

0 投票

3 回答

1282 浏览

sql - Hive ：优化长时间运行的查询

在 50GB 大小的员工日志表上运行的简单 Hive SQL 查询运行了数小时。

只有4-5个部门，每个部门都有大量员工。

它在 1TB 内存上使用 Hive 0.14 + Tez 运行。有没有办法优化这个代码块以获得更好的性能？

修改 1
用 collect_list 替换 distinct 进行测试。

SELECT dept, size(collect_list(emp_id)) nb_emps FROM emp_log GROUP BY dept

得到以下错误，
Status: Failed Vertex failed, vertexName=Reducer 2,vertexId=vertex_1446976653619_0043_1_02, diagnostics=[Task failed,taskId=task_1446976653619_0043_1_02_000282, diagnostics=[TaskAttempt 0 failed, info=[Error: Failure while running task:java.lang.RuntimeException: java.lang.OutOfMemoryError: Java heap space

sql hadoop hive apache-tez

2015-11-08T19:44:24.193

0 投票

0 回答

1686 浏览

hadoop - hive join 与 like 运算符

我有两个使用 ORC 压缩的表，并且使用 TEZ 作为执行引擎。Table_a 包含超过 900k 条记录，table_b 包含 1700 万条记录。这个查询需要更长的时间我已经等了 2 天，但查询执行没有完成。我在这个查询中做错了什么。

hadoop hive apache-tez

2015-11-12T05:59:33.163

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-tez]

Reference