问题标签 [apache-tez]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hive 插入查询失败并返回错误代码 -101
我正在尝试运行一个简单的插入语句,如下所示:
然后它失败并出现以下错误:
信息:从 /apps/hive/warehouse/dtc.db/bwc_test/.hive-staging_hive_2018-11-13_19-10-37_084_8697431764330812894-1/-ext-10000 将数据加载到表 dtc.bwc_test 分区(call_date=null)
bwc_master 的表定义:
有人可以帮我调试吗?我在日志中没有找到任何东西。
hive - Hive TEZ 需要很长时间来运行查询
我对 Hive 和 Hadoop 有点陌生。我有一个查询需要 10 分钟才能完成查询。
数据大小为 10GB 统计信息:行数:4457541 数据大小:1854337449 基本统计信息:COMPLETE 列统计信息:COMPLETE
分区和分桶是在表中完成的。
如何改进以下查询。
这些参数都没有帮助我们在更短的时间内解决查询。
apache-spark - Tez VS Spark - 巨大的性能差异
我正在使用 HDP 2.6.4,并且在 TeZ 上看到 Spark SQL 与 Hive 的巨大差异。这是对约 95 M 行表的简单查询
DT
是分区列,一个标记日期的字符串。
在 spark shell 中,有 15 个执行器,10G 内存用于驱动程序,15G 用于执行器,查询运行 10-15 秒。
在 Hive 上运行时(来自beeline),查询运行(实际上仍在运行)500 多秒。(!!!) 更糟糕的是,这个应用程序比我运行该工作的 spark shell 会话占用更多的资源(显着)。
更新:它完成了1 row selected (672.152 seconds)
有关环境的更多信息:
仅使用一个队列,带有容量调度程序
运行作业的用户是我自己的用户。我们将 Kerberos 与 LDAP 一起使用
上午资源:4096 MB
将 tez.runtime.compress 与 Snappy 一起使用
数据为 Parquet 格式,未应用压缩
tez.task.resource.memory 6134 MB
tez.counters.max 10000
tez.counters.max.groups 3000
tez.runtime.io.sort.mb 8110 MB
tez.runtime.pipelined.sorter.sort.threads 2
tez.runtime.shuffle.fetch.buffer.percent 0.6
tez.runtime.shuffle.memory.limit.percent 0.25
tez.runtime.unordered.output.buffer.size-mb 460 MB
启用矢量化和地图矢量化 true
启用减少矢量化 false
hive.vectorized.groupby.checkinterval 4096
hive.vectorized.groupby.flush.percent 0.1
hive.tez.container.size 682
更多更新:
在此链接上检查矢量化时,我注意到我没有看到Vectorized execution: true当我使用explain
. 引起我注意的另一件事是:table:{"input format:":"org.apache.hadoop.mapred.TextInputFormat","output format:":"org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat","serde:":"org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe"}
即,在检查表本身时:STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'
和OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
spark和tez之间的任何比较通常都是相对相同的,但我看到了巨大的差异。
首先要检查什么?
谢谢
hadoop - Hive 配置不反映
我正在使用 hive-site.xml 更改一些配置参数。例如。
但是当我使用beeline和以下命令连接到hive服务器时 -
它不保留服务器配置。即当我运行任何查询时,它总是使用 MR 作业,但是我将引擎配置为 tez。但是如果我这样做的话
它使用 tez。为什么尽管在 hite-site.xml 中设置了这个,但配置没有反映。还是直线覆盖了所有配置?
python - Apache 滑块 LLAP 容器无法启动
我正在尝试启动 LLAP 容器,但在容器日志中看到以下错误
我在 AM 诊断信息中看到以下内容 -
有什么帮助吗?我正在使用 apache 滑块滑块-0.91.0
hive - 设置什么配置单元属性以避免交叉产品?
我在 Tez 上运行 hive (1.2 版) 查询,由于 cross product 的原因,我的查询一直在返回数据。
我已经尝试过其中一些蜂巢属性。
关于如何优化查询的任何指示?
我已经看到由于缺少“ON”子句而导致查询运行时间更长的问题,而是使用“where”过滤器完成,但我的查询似乎已经解决了这个问题。
以下是相同查询的 XPLAIN 计划
hadoop - tez 执行模式下的 Hive 查询顶点失败
我正在尝试执行 Hive 查询——
它正在下降并出现以下错误
TaskAttempt 1 失败,info=[错误:运行任务时失败:java.lang.RuntimeException:java.lang.RuntimeException:java.lang。RuntimeException: 找不到 exprNodeDesc null 的 ExprNodeEvaluator
我怀疑这是因为计算 b/wg 和 f 的差异(可能是一些 NULL 值),但要求专家回答来解决问题,因为我无权访问数据。提前致谢
我正在使用以下属性。
我从 UNIX 服务器上的 hive 提示符运行。实际上基础表是一个包含一些连接的视图..在进一步研究中我发现我们需要将顺序替换为. 不幸的是,在限制之前按需要排序 - >这也导致了同样的问题。有人可以建议任何其他方式来重写查询
hadoop - Tez 上 Hive 中的 ORDER BY 语句引发 OOM 异常
我正在尝试使用 ORDER BY 来查找在 Hive 的表中创建条目的最早时间。声明看起来像这样
这给了我一个看起来像这样的错误消息:
https://i.imgur.com/cgIiSKh.png
只是为了向您展示没有 ORDER BY 的 SELECT 语句如何工作:
https://i.imgur.com/k6RwAd4.png
尝试时我遇到了几乎相同的错误
timeiss 是一个字符串。
这是完整的错误消息文本
java.sql.SQLException:处理语句时出错:FAILED:执行错误,从 org.apache.hadoop.hive.ql.exec.tez.TezTask 返回代码 2。顶点失败,vertexName=Map 1,vertexId=vertex_1541164145004_0025_1_00,诊断=[任务失败,taskId=task_1541164145004_0025_1_00_000000,诊断=[TaskAttempt 0 失败,info=[错误:运行任务时失败:java.lang.RuntimeException:java.lang.OutOfMemory : org.apache.hadoop.hive.ql.exec.tez.TezProcessor.run(TezProcessor.initializeAndRunProcessor(TezProcessor.java:159) 处的 Java 堆空间java:139) 在 org.apache.tez.runtime.LogicalIOProcessorRuntimeTask.run(LogicalIOProcessorRuntimeTask.java:347) 在 org.apache.tez.runtime.task.TezTaskRunner$TaskRunnerCallable$1.run(TezTaskRunner.java:194) 在 org.阿帕奇.tez。tez.TezProcessor.initializeAndRunProcessor(TezProcessor.java:149) ... 14 更多]],由于 OWN_TASK_FAILURE,Vertex 没有成功,failedTasks:1killedTasks:0,Vertex vertex_1541164145004_0025_1_00 [Map 1] 由于:OWN_TASK_FAILURE]Vertex 而被杀死/失败已终止,vertexName=Reducer 2,vertexId=vertex_1541164145004_0025_1_01,diagnostics=[Vertex 在 RUNNING 状态下收到 Kill。,由于 OTHER_VERTEX_FAILURE,Vertex 未成功,failedTasks:0killedTasks:1,Vertex vertex_1541164145004_0025_1_01 [Reducer 2] OTHER_VERTEX_FAILURE]由于 VERTEX_FAILURE,DAG 未成功。失败顶点:1 杀死顶点:1 Vertex vertex_1541164145004_0025_1_00 [Map 1] 由于:OWN_TASK_FAILURE 被杀死/失败]Vertex 被杀死,vertexName=Reducer 2,vertexId=vertex_1541164145004_0025_1_01,diagnostics=[Vertex 在 RUNNING 状态下收到 Kill。,Vertex 没有成功,由于 OTHER_VERs_TasksTEXTasks:IL0_VERsFAILs 被杀死:1,顶点 vertex_1541164145004_0025_1_01 [Reducer 2] 由于:OTHER_VERTEX_FAILURE 而被杀死/失败] DAG 由于 VERTEX_FAILURE 而没有成功。失败顶点:1 杀死顶点:1 Vertex vertex_1541164145004_0025_1_00 [Map 1] 由于:OWN_TASK_FAILURE 被杀死/失败]Vertex 被杀死,vertexName=Reducer 2,vertexId=vertex_1541164145004_0025_1_01,diagnostics=[Vertex 在 RUNNING 状态下收到 Kill。,Vertex 没有成功,由于 OTHER_VERs_TasksTEXTasks:IL0_VERsFAILs 被杀死:1,顶点 vertex_1541164145004_0025_1_01 [Reducer 2] 由于:OTHER_VERTEX_FAILURE 而被杀死/失败] DAG 由于 VERTEX_FAILURE 而没有成功。失败顶点:1 杀死顶点:1 OTHER_VERTEX_FAILURE]由于 VERTEX_FAILURE,DAG 未成功。失败顶点:1 杀死顶点:1 OTHER_VERTEX_FAILURE]由于 VERTEX_FAILURE,DAG 未成功。失败顶点:1 杀死顶点:1