问题标签 [apache-tez]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1198 浏览

hadoop - Hive 插入查询失败并返回错误代码 -101

我正在尝试运行一个简单的插入语句,如下所示:

然后它失败并出现以下错误:

信息:从 /apps/hive/warehouse/dtc.db/bwc_test/.hive-staging_hive_2018-11-13_19-10-37_084_8697431764330812894-1/-ext-10000 将数据加载到表 dtc.bwc_test 分区(call_date=null)

bwc_master 的表定义:

有人可以帮我调试吗?我在日志中没有找到任何东西。

0 投票
1 回答
1444 浏览

hive - Hive TEZ 需要很长时间来运行查询

我对 Hive 和 Hadoop 有点陌生。我有一个查询需要 10 分钟才能完成查询。

数据大小为 10GB 统计信息:行数:4457541 数据大小:1854337449 基本统计信息:COMPLETE 列统计信息:COMPLETE

分区和分桶是在表中完成的。

如何改进以下查询。

这些参数都没有帮助我们在更短的时间内解决查询。

0 投票
1 回答
4265 浏览

apache-spark - Tez VS Spark - 巨大的性能差异

我正在使用 HDP 2.6.4,并且在 TeZ 上看到 Spark SQL 与 Hive 的巨大差异。这是对约 95 M 行表的简单查询

DT是分区列,一个标记日期的字符串。

在 spark shell 中,有 15 个执行器,10G 内存用于驱动程序,15G 用于执行器,查询运行 10-15 秒。

在 Hive 上运行时(来自beeline),查询运行(实际上仍在运行)500 多秒。(!!!) 更糟糕的是,这个应用程序比我运行该工作的 spark shell 会话占用更多的资源(显着)。

更新:它完成了1 row selected (672.152 seconds)

有关环境的更多信息:

  • 仅使用一个队列,带有容量调度程序

  • 运行作业的用户是我自己的用户。我们将 Kerberos 与 LDAP 一起使用

  • 上午资源:4096 MB

  • 将 tez.runtime.compress 与 Snappy 一起使用

  • 数据为 Parquet 格式,未应用压缩

  • tez.task.resource.memory 6134 MB

  • tez.counters.max 10000

  • tez.counters.max.groups 3000

  • tez.runtime.io.sort.mb 8110 MB

  • tez.runtime.pipelined.sorter.sort.threads 2

  • tez.runtime.shuffle.fetch.buffer.percent 0.6

  • tez.runtime.shuffle.memory.limit.percent 0.25

  • tez.runtime.unordered.output.buffer.size-mb 460 MB

  • 启用矢量化和地图矢量化 true

  • 启用减少矢量化 false

  • hive.vectorized.groupby.checkinterval 4096

  • hive.vectorized.groupby.flush.percent 0.1

  • hive.tez.container.size 682

更多更新:

在此链接上检查矢量化时,我注意到我没有看到Vectorized execution: true当我使用explain. 引起我注意的另一件事是:table:{"input format:":"org.apache.hadoop.mapred.TextInputFormat","output format:":"org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat","serde:":"org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe"}

即,在检查表本身时:STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'

spark和tez之间的任何比较通常都是相对相同的,但我看到了巨大的差异。

首先要检查什么?

谢谢

0 投票
1 回答
620 浏览

hadoop - Hadoop中的VIRTUAL_MEMORY_BYTES任务计数器是什么意思?

权威指南的以下摘录提供了如下所示的高级细节,但

  1. 这个任务计数器中的虚拟内存到底指的是什么?
  2. 如何解读它?它与 PHYSICAL_MEMORY_BYTES 有什么关系?

在此处输入图像描述

以下是其中一项工作的示例摘录。物理大小约为 214 GB。虚拟空间约为 611 GB。

在此处输入图像描述

0 投票
1 回答
175 浏览

hadoop - Hive 配置不反映

我正在使用 hive-site.xml 更改一些配置参数。例如。

但是当我使用beeline和以下命令连接到hive服务器时 -

它不保留服务器配置。即当我运行任何查询时,它总是使用 MR 作业,但是我将引擎配置为 tez。但是如果我这样做的话

它使用 tez。为什么尽管在 hite-site.xml 中设置了这个,但配置没有反映。还是直线覆盖了所有配置?

0 投票
0 回答
115 浏览

python - Apache 滑块 LLAP 容器无法启动

我正在尝试启动 LLAP 容器,但在容器日志中看到以下错误

我在 AM 诊断信息中看到以下内容 -

有什么帮助吗?我正在使用 apache 滑块滑块-0.91.0

0 投票
1 回答
1295 浏览

hive - 设置什么配置单元属性以避免交叉产品?

我在 Tez 上运行 hive (1.2 版) 查询,由于 cross product 的原因,我的查询一直在返回数据。

我已经尝试过其中一些蜂巢属性。

关于如何优化查询的任何指示?

我已经看到由于缺少“ON”子句而导致查询运行时间更长的问题,而是使用“where”过滤器完成,但我的查询似乎已经解决了这个问题。

以下是相同查询的 XPLAIN 计划

0 投票
0 回答
941 浏览

hadoop - tez 执行模式下的 Hive 查询顶点失败

我正在尝试执行 Hive 查询——

它正在下降并出现以下错误

TaskAttempt 1 失败,info=[错误:运行任务时失败:java.lang.RuntimeException:java.lang.RuntimeException:java.lang。RuntimeException: 找不到 exprNodeDesc null 的 ExprNodeEvaluator

我怀疑这是因为计算 b/wg 和 f 的差异(可能是一些 NULL 值),但要求专家回答来解决问题,因为我无权访问数据。提前致谢

我正在使用以下属性。

我从 UNIX 服务器上的 hive 提示符运行。实际上基础表是一个包含一些连接的视图..在进一步研究中我发现我们需要将顺序替换为. 不幸的是,在限制之前按需要排序 - >这也导致了同样的问题。有人可以建议任何其他方式来重写查询

0 投票
1 回答
358 浏览

hive - 当我在 hive 使用执行引擎 tez 上运行任务时,发生错误

0 投票
1 回答
576 浏览

hadoop - Tez 上 Hive 中的 ORDER BY 语句引发 OOM 异常

我正在尝试使用 ORDER BY 来查找在 Hive 的表中创建条目的最早时间。声明看起来像这样

这给了我一个看起来像这样的错误消息:

https://i.imgur.com/cgIiSKh.png

只是为了向您展示没有 ORDER BY 的 SELECT 语句如何工作:

https://i.imgur.com/k6RwAd4.png

尝试时我遇到了几乎相同的错误

timeiss 是一个字符串。

这是完整的错误消息文本

java.sql.SQLException:处理语句时出错:FAILED:执行错误,从 org.apache.hadoop.hive.ql.exec.tez.TezTask 返回代码 2。顶点失败,vertexName=Map 1,vertexId=vertex_1541164145004_0025_1_00,诊断=[任务失败,taskId=task_1541164145004_0025_1_00_000000,诊断=[TaskAttempt 0 失败,info=[错误:运行任务时失败:java.lang.RuntimeException:java.lang.OutOfMemory : org.apache.hadoop.hive.ql.exec.tez.TezProcessor.run(TezProcessor.initializeAndRunProcessor(TezProcessor.java:159) 处的 Java 堆空间java:139) 在 org.apache.tez.runtime.LogicalIOProcessorRuntimeTask.run(LogicalIOProcessorRuntimeTask.java:347) 在 org.apache.tez.runtime.task.TezTaskRunner$TaskRunnerCallable$1.run(TezTaskRunner.java:194) 在 org.阿帕奇.tez。tez.TezProcessor.initializeAndRunProcessor(TezProcessor.java:149) ... 14 更多]],由于 OWN_TASK_FAILURE,Vertex 没有成功,failedTasks:1killedTasks:0,Vertex vertex_1541164145004_0025_1_00 [Map 1] 由于:OWN_TASK_FAILURE]Vertex 而被杀死/失败已终止,vertexName=Reducer 2,vertexId=vertex_1541164145004_0025_1_01,diagnostics=[Vertex 在 RUNNING 状态下收到 Kill。,由于 OTHER_VERTEX_FAILURE,Vertex 未成功,failedTasks:0killedTasks:1,Vertex vertex_1541164145004_0025_1_01 [Reducer 2] OTHER_VERTEX_FAILURE]由于 VERTEX_FAILURE,DAG 未成功。失败顶点:1 杀死顶点:1 Vertex vertex_1541164145004_0025_1_00 [Map 1] 由于:OWN_TASK_FAILURE 被杀死/失败]Vertex 被杀死,vertexName=Reducer 2,vertexId=vertex_1541164145004_0025_1_01,diagnostics=[Vertex 在 RUNNING 状态下收到 Kill。,Vertex 没有成功,由于 OTHER_VERs_TasksTEXTasks:IL0_VERsFAILs 被杀死:1,顶点 vertex_1541164145004_0025_1_01 [Reducer 2] 由于:OTHER_VERTEX_FAILURE 而被杀死/失败] DAG 由于 VERTEX_FAILURE 而没有成功。失败顶点:1 杀死顶点:1 Vertex vertex_1541164145004_0025_1_00 [Map 1] 由于:OWN_TASK_FAILURE 被杀死/失败]Vertex 被杀死,vertexName=Reducer 2,vertexId=vertex_1541164145004_0025_1_01,diagnostics=[Vertex 在 RUNNING 状态下收到 Kill。,Vertex 没有成功,由于 OTHER_VERs_TasksTEXTasks:IL0_VERsFAILs 被杀死:1,顶点 vertex_1541164145004_0025_1_01 [Reducer 2] 由于:OTHER_VERTEX_FAILURE 而被杀死/失败] DAG 由于 VERTEX_FAILURE 而没有成功。失败顶点:1 杀死顶点:1 OTHER_VERTEX_FAILURE]由于 VERTEX_FAILURE,DAG 未成功。失败顶点:1 杀死顶点:1 OTHER_VERTEX_FAILURE]由于 VERTEX_FAILURE,DAG 未成功。失败顶点:1 杀死顶点:1