问题标签 [tez]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
913 浏览

hadoop - 将 HDP 2.2 升级到 2.3 后,Tez 上的 Hive 在 Hue 上不起作用(错误:客户端版本 = 未知)

我已经将我们的 Hadoop 集群的 HortonWorks 从 2.2 升级到 2.3,并对 Hue 进行了所有必要的更改(在 HortonWorks 文档中给出),但是在 Hive 浏览器上访问 Tez 时,hue 客户端存在以下问题,而 Hive CLI 上的 Tez 工作得很好。早些时候(HDP 2.2),Tez 与 Hue 兼容,但是在 HDP 2.3 上使用 Tez 的 Hue 客户端是否存在问题?

问题 1:将 HDP 2.2 升级到 2.3 后,Tez 仍会在 HDFS 和本地位置查找 HDP 2.2 库文件。HDP 2.2 位置:

HDFS: /hdp/apps/2.2.9.0-3393

本地文件: /usr/hdp/2.2.9.0-3393

问题 1 的临时解决方案:将 2.3 支持文件移至 2.2

HDFS:

本地文件:

从技术上讲,Tez 必须查找“/usr/hdp/current”目录,即 2.3.2.0-2950。

问题 2:通过 Hue 在 Tez 上运行 Hive 会出现以下错误:

错误:

通过一些研究发现,当运行 Hive 查询不需要执行 Tez 时,Hue 客户端版本与 AM 版本匹配,而任何需要执行 tez 的查询显示为未知。

  • 当不需要执行 Tez 时,客户端版本和 AM 版本匹配:

    为应用程序 appattempt_1470224940790_0082_000001 创建了 DAGAppMaster,versionInfo=[ component=tez-dag, version=0.7.0.2.3.2.0-2950, revision=4900a9cea70487666ace4c9e490d4d8fc1fee96f, SCM-URL=scm:git: https://git-wip- .org/repos/asf/tez.git , buildTime=20150930-1859 ] [INFO] [main] |app.DAGAppMaster|: 比较客户端版本和 AM 版本,clientVersion=0.7.0.2.3.2.0-2950, AMVersion= 0.7.0.2.3.2.0-2950

  • 启用 Tez 执行时客户端版本和 AM 版本不匹配:

    为应用程序 appattempt_1470224940790_0092_000001 创建了 DAGAppMaster,versionInfo=[ component=tez-dag, version=0.7.0.2.3.2.0-2950, revision=4900a9cea70487666ace4c9e490d4d8fc1fee96f, SCM-URL=scm:git: https://git-wip- .org/repos/asf/tez.git , buildTime=20150930-1859 ] 将客户端版本与 AM 版本进行比较,clientVersion=Unknown,AMVersion=0.7.0.2.3.2.0-2950 [ERROR] [main] |app.DAGAppMaster| : 发现不兼容的版本,clientVersion=Unknown, AMVersion=0.7.0.2.3.2.0-2950

当通过 HDP 2.3 上的 Hue 启用 Tez 时,任何人都可以帮助找到解决不兼容版本错误的方法。

0 投票
2 回答
520 浏览

hadoop - Hive 分区不适用于动态变量

如果我跑

Hive 仅从适当的分区中提取记录。或者,如果我跑

partition_variable 上的条件被视为谓词而不是分区,并且 hive 会遍历表中的所有记录。

这显然是一个人为的例子,但在我的特定用例中是必要的。无论如何强制配置单元使用它进行分区?

提前致谢。

0 投票
0 回答
186 浏览

csv - 从 hadoop 加载 CSV 到 hive - 可扩展性问题 20GB/h

我正在寻找一种方法来加速将数据从 hadoop 加载到我使用 presto 查询的配置单元。在我的工作流程中,我从 hadoop 上的单个 csv 文件开始。

瞬间,它只在 csv 上创建视图。
然后count all已经很慢了...

目标表准备如下:

并加载:

这个单表从 hadoop 加载到 hive 大约需要 5 小时以上。对于具有两个整数列的 103GB csv 来说,这不是太长了吗?理想情况下,我的目标不仅是在 5e9 上更好地缩放,而且还包括更大的系列。
10 台机器 250GB 的集群应该可以处理这个问题。它是否与我的版本有关(hive-0.14.0.2.2.6.3)或某些自定义设置可以在这里发挥作用?

0 投票
1 回答
596 浏览

hadoop - 为什么有人会在 Tez 上运行 Spark/Flink?

在Saha 等人的Tez 论文中,显示了带有 Tez 的 Hadoop 2 的以下模块化架构:

带有 Tez 的 Hadoop 2

为什么有人会在 Tez 上运行 Spark/Flink?

有什么优势?更好地利用 YARN?

0 投票
0 回答
328 浏览

hadoop - Hive 创建表不插入数据

我正在运行以下配置单元查询。mapreduce 完成后,我看到没有插入任何数据。

但是,如果我只是运行如下选择查询,我会得到结果。t1、t2 和 t3 的数据类型相同。最后,我得到以下声明:

"numFiles = 27 , numRows = 0 and totalSize = 34567...."

任何想法可能是什么问题。我正在使用 TEZ 运行它。

0 投票
0 回答
1461 浏览

hadoop - Apache Tez 配置问题

我想用apache hadoop配置apache tez。但是遇到问题......任何人都可以建议我如何解决这个问题。

引起: org.apache.tez.dag.api.TezUncheckedException: tez jars 配置无效,配置中没有定义tez.lib.uris

0 投票
0 回答
305 浏览

hive - 访问 tez 工作历史

我想从 tez 执行引擎的作业历史服务器获取作业信息。

目前,所有 map reduce 作业都反映在作业历史服务器上,但不反映在 tez 上。

作业历史正在使用某种日志来获取所有信息。我在哪里可以找到这些日志?如果作业历史服务器上的信息不可用,我可以解析这些日志以获取我需要的信息。

我已经尝试过解析 pig-tez cmd 日志。不包含足够信息且不适用于 tez 上的 hive 的解析。

0 投票
0 回答
350 浏览

hadoop - Hive 2.1.0 问题 org.apache.hadoop.hive.ql.metadata.HiveException:无法移动源

我正在使用 hadoop 2.7.2 ,hive 2.1.0 已启用 tez 但又恢复为使用 mr 作为执行引擎,并在尝试在 orc 和 parquet 表上运行 Insert Select 查询时遇到以下错误,

关于这个问题的任何线索,都会受到高度评价。

问候。

0 投票
4 回答
20749 浏览

hadoop - How do I increase Tez's container physical memory?

I've been running some hive scripts on an aws emr 4.8 cluster with hive 1.0 and tez 0.8.

My configurations look like this:

And my global configs are:

While running my script, I get the following error:

On googling this error, I read that set tez.task.resource.memory.mb will change the physical memory limit, but clearly I was mistaken. What am I missing?

0 投票
0 回答
289 浏览

apache - 如何在 Tez 查询执行中找到 CPU 时间?

我目前正在使用 MapReduce 和 Tez 测试存储在 HDFS 中的表的时间执行。在 MapReduce 中,我可以很容易地看到该进程所花费的 CPU 时间。

MapReduce 示例

在此处输入图像描述

我不清楚 Tez 查询显示的结果。

特斯示例

在此处输入图像描述

有人可以解释图片中显示的两次吗?我在哪里可以找到 Tez 查询的 CPU 时间。

编辑 - 我发现时间记录为 vcore-seconds,这是核心数乘以每个核心运行的秒数。还有其他可以使用的指标吗?