问题标签 [apache-tez]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 是否可以将一个 oozie 动作的输出用于其他动作而无需从 hdfs 保存和加载?子工作流选项在这方面有用吗?
我必须编写一个运行多个猪动作的 oozie 工作流。这些猪动作可能是相互依赖的。我的意思是一个猪脚本的输出将对其他猪有用。我想避免从 hdfs 进行多次保存和加载。这是如何实现的?我可以使用 TEZ DAG 将所有猪脚本组合成 DAG 结构并从 Oozie 运行一个 Java 操作吗?
hadoop - 无法在 Apache Tez 上运行 Pig latin 脚本
我有一个伪分布式单集群 Ubuntu 机器。我编写了一个简单的猪拉丁脚本,在使用 mapreduce 作为执行模式时运行良好。但是当我使用 tez 作为执行模式使用 -x 开关时,我得到了以下错误
2015-08-17 17:12:22,344 [PigTezLauncher-0] 错误 org.apache.pig.backend.hadoop.executionengine.tez.TezJob - 无法提交 DAG org.apache.tez.dag.api.SessionNotRunning:TezSession 已经关闭 在 org.apache.tez.client.TezClient.waitTillReady(TezClient.java:603) 在 org.apache.pig.backend.hadoop.executionengine.tez.TezSessionManager.createSession(TezSessionManager.java:100) 在 org.apache.pig .backend.hadoop.executionengine.tez.TezSessionManager.getClient(TezSessionManager.java:195) 在 org.apache.pig.backend.hadoop.executionengine.tez.TezJob.run(TezJob.java:159) 在 org.apache.pig .backend.hadoop.executionengine.tez.TezLauncher$1.run(TezLauncher.java:167) at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471) at java.util.concurrent.FutureTask.run( FutureTask.java:262) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 在 java.lang.Thread.run (线程.java:745)
我想知道这个异常的含义以及如何解决这个问题。
已解决: 问题在于 pig 和 tez 的版本。用 pig 0.14 安装了 tez 0.5,它工作了。
hadoop - 使用 TEZ 创建 Hive 索引
是否可以使用 Tez 而不是 MR 作业生成索引?当我们尝试设置 hive.execution.engine=Tez 并尝试生成索引时,索引创建失败。以下是我使用过的命令列表:
CREATE TABLE table02(column1 String, column2 bigint, column3 string); CREATE INDEX table02_index ON TABLE table02 (column3) AS 'COMPACT' WITH DEFERRED REBUILD; ALTER INDEX table02_index ON table02 REBUILD;
索引创建失败并显示以下错误消息: 失败:执行错误,从 org.apache.hadoop.hive.ql.exec.tez.TezTask 返回代码 1
那么,对于表上的索引创建,我们是否总是必须设置 hive.execution.engine=mr 即使我们想使用 TEZ 对该表中的数据执行查询?TEZ有限制吗?
hadoop - Apache Drill的性能
是否有任何性能基准(真正的)可以比较 Stinger、Impala 和 Drill?此外,这是首选 - 我的用例将主要针对 Hive 之上的临时交互式查询。谢谢。
merge - 如何减少 Hive 中 SQL“Alter Table/Partition Concatenate”的生成文件?
蜂巢版本:1.2.1
配置:
总部:
我使用 HQL 来合并特定表/分区的文件。但是,执行后输出目录下还有很多文件;它们的大小远远小于256000000。那么如何减少输出文件的数量。
顺便说一句,使用 MapReduce 代替 Tez 也没有用。
hive - tez 模式下的 Oozie hive 脚本调度
我尝试通过传递 hadoop 属性以在工作流 xml 文件中引用 tez jar 文件来安排 hive 工作流 xml 文件以在 tez 模式下运行 hive 脚本,如下所示。
此外,我将 hive-site xml 文件属性 hive.execution.engine 更改为 tez 模式。
当我使用 oozie 安排工作流程时。我得到如下错误
任何人都可以说如何纠正这个问题并安排我的工作流 xml 文件并在 tez 模式下运行 hive 脚本。
hive - Hive tez 执行错误
我正在运行 hive 查询,在设置 hive.execution.engine=tez 时出现以下错误,而查询在 engine=MR 下工作。
我的查询是内部联接,数据很大。
另一件事是我以前遇到过这个问题。但是 tez 后来工作了,所以我认为这是关于 hive 的一些不稳定因素。
sql - Hive :优化长时间运行的查询
在 50GB 大小的员工日志表上运行的简单 Hive SQL 查询运行了数小时。
只有4-5个部门,每个部门都有大量员工。
它在 1TB 内存上使用 Hive 0.14 + Tez 运行。有没有办法优化这个代码块以获得更好的性能?
修改 1
用 collect_list 替换 distinct 进行测试。
SELECT dept, size(collect_list(emp_id)) nb_emps
FROM emp_log
GROUP BY dept
得到以下错误,
Status: Failed Vertex failed, vertexName=Reducer 2,vertexId=vertex_1446976653619_0043_1_02, diagnostics=[Task failed,taskId=task_1446976653619_0043_1_02_000282, diagnostics=[TaskAttempt 0 failed, info=[Error: Failure while running task:java.lang.RuntimeException: java.lang.OutOfMemoryError: Java heap space
hadoop - hive join 与 like 运算符
我有两个使用 ORC 压缩的表,并且使用 TEZ 作为执行引擎。Table_a 包含超过 900k 条记录,table_b 包含 1700 万条记录。这个查询需要更长的时间我已经等了 2 天,但查询执行没有完成。我在这个查询中做错了什么。