问题标签 [tez]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
664 浏览

hadoop - Hive 查询不启动映射阶段

我有一个尝试在 Hive 0.14 中运行的简单查询:

被 分割month

它卡在地图阶段:

日志还没有生成,所以不知道如何调试。这是怎么回事?为什么任务永远不会开始?

0 投票
2 回答
1412 浏览

hadoop - 记录对于内存缓冲区来说太大。通过 TEZ 使用 Hive 的 ORC 表时出错

我们正在尝试从 HIVE (1.2.1) 中的“ORC”表中读取数据,并将该数据放入带有“TextInputFormat”的表中。原始数据中有些条目太大,运行时出现如下错误:

org.apache.hadoop.hive.ql.metadata.HiveException:org.apache.tez.runtime.library.common.sort.impl.ExternalSorter$MapBufferTooSmallException:记录对于内存缓冲区来说太大。超出缓冲区溢出限制,bufferOverflowRecursion=2,bufferList.size=1,blockSize=1610612736

任何想法如何解决这个问题?

我们使用 TEZ 引擎执行查询,简单的 MR 引擎没有错误。

要执行的查询:

更新:从 ORC 复制到 ORC 存储时出现同样的错误。

更新 2:来自 ORC 的简单“选择”适用于任何引擎。

0 投票
0 回答
59 浏览

hadoop - Hadoop 集群。大量 TCP 重传

我们有 hadoop2 集群,包括 2 个名称节点、13 个数据节点和 1 个带有元数据库的“中介”机器。Namenodes 和 datanodes 在同一个数据中心,但元数据库在远程端。

在执行 MR 作业时,所有节点之间有大量 TCP 重传和 TCP 数据包重复。

这是正常的行为吗?

0 投票
1 回答
2311 浏览

hadoop - Hive / Tez 工作无法启动

我正在尝试通过从 HDFS 中的文本文件导入来ORC table在 Hive中创建一个。我尝试了多种不同的方法,在网上搜索了帮助,无论如何插入作业都不会开始。

我可以将文本文件获取到 HDFS,我可以将文本文件读取到 Hive,但我无法将其转换为 ORC。

我尝试了许多不同的变体,包括这个可以用作这个问题的参考的变体:

http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.3.0/bk_dataintegration/content/moving_data_from_hdfs_to_hive_external_table_method.html

我有一个单节点 HDP 集群(用于开发) - 版本:

HDP-2.3.2.0

(2.3.2.0-2950)

以下是相关的服务版本:

服务版本状态描述

HDFS 2.7.1.2.3 安装的 Apache Hadoop 分布式文件系统

MapReduce2 2.7.1.2.3 安装的 Apache Hadoop NextGen MapReduce (YARN)

YARN 2.7.1.2.3 已安装 Apache Hadoop NextGen MapReduce (YARN)

Tez 0.7.0.2.3 已安装 Tez 是在 YARN 之上编写的下一代 Hadoop 查询处理框架。

Hive 1.2.1.2.3 安装的数据仓库系统,用于大型数据集的临时查询和分析以及表和存储管理服务

当我运行这样的 SQL 时会发生什么(同样,我尝试了许多变体,包括直接来自在线教程):

插入覆盖表 mycars SELECT * FROM cars;

我的工作是这样的:

应用程序总数(应用程序类型:[] 和状态:

[已提交、已接受、正在运行]):1

它就挂在那里。(从字面上看,我已经尝试了一个20 行的示例表并让它运行了几个小时,然后才杀死它)。

我绝不是 Hadoop 专家(还),我确信这可能是一个配置问题,但我一直无法弄清楚。

我尝试过的所有其他 Hive 操作,例如创建删除表、将文件加载到文本表、选择,都可以正常工作。只是当我创建一个 ORC 表时它才会这样做。我需要一个 ORC 表来满足我的要求。

任何意见将是有益的。

0 投票
1 回答
73 浏览

hadoop - 尝试添加重复资源:guava-11.0.2.jar

我正在尝试使用 Tez Mode 运行猪脚本。我能够在本地模式下执行我的猪脚本,即 pig -x tez_local 但是当我在 tez 模式下执行相同的猪脚本时出现错误,即 pig -x tez

我附上了描述错误详细信息的屏幕截图。tez 模式截图

我正在使用 pig 0.14.0 和 tez 0.5.4,Hadoop-2.6.0 请有人帮我解决这个错误。

谢谢你 。

0 投票
0 回答
1958 浏览

hadoop - java.io.FileNotFoundException 上的 hive 作业失败

--- hive.log

--- 来自 hadoop 的工作日志

请帮助检查是什么问题。谢谢!

0 投票
1 回答
1331 浏览

scala - 如何使用 tez 和 yarn 让 spark-submit hive 上下文正常运行?

我一直在尝试让 spark-submit 与 org.apache.spark.sql.hive.HiveContext 一起使用,但我一直在使用 java.lang.NoClassDefFoundError: org/apache/tez/dag/api/SessionNotRunning。这是代码,它在最后一行中断:

这是在 Hortonworks 2.3.4 上,带有 spark 1.5.2、hive 1.2.1、hadoop 2.7.1 和 tez 0.7.0。我将 maven 用于除数据核之外的所有依赖项,我在 spark-submit 的 --files 参数中有 hive-site.xml 和 tez-site.xml。这是我的 pom 中与 tez 相关的摘录:

此代码在 spark shell 中正常工作。有什么建议吗?

0 投票
2 回答
690 浏览

hadoop - Hive 表已排序但未排序插入

如果会发生什么 create table X (...) clustered by(date) sorted by (time)

但没有排序插入 insert into x select * from raw

在插入之前从原始获取数据后是否会排序?

如果插入了未排序的数据 在创建表语句中“排序依据”是做什么的。它只是提示以后的选择查询?

0 投票
2 回答
3312 浏览

timeline - 在 Tez ui 中看不到任何 dag

我可以在 Tez 上运行 hive,但在 tez ui 中看不到任何工作。

它会让我发疯!

在此处输入图像描述

并且时间线服务器中的用户和名称为空 在此处输入图像描述

配置很糟糕:tez-site.xml

和纱线-site.xml

和网址:

所有这些,我在下面得到相同的回复:

0 投票
0 回答
829 浏览

hive - Tez 错误-INIT_FAILURE,无法创建 InputInitializerManager

我已经在我的机器上安装了 apache-tez-0.8.1-alpha、hadoop 2.7.2 和 hive-2.0.1。我将 mapreduce 框架更改为“yarn-tez”。所以我可以使用 Tez 运行 hadoop 应用程序。但是当我通过在 hive 中设置 hive.execution.engine=tez, 使用 hive 查询运行应用程序。我收到以下错误:

tez-site.xml:

我已将 tez-tarball 和 hive-exec-2.0.1.jar 复制到 hdfs 中的 /apps/tez-0.8.1/ 位置。