“tez”的相关标签问题_Stack Overflow中文网

0 投票

0 回答

913 浏览

hadoop - 将 HDP 2.2 升级到 2.3 后，Tez 上的 Hive 在 Hue 上不起作用（错误：客户端版本 = 未知）

我已经将我们的 Hadoop 集群的 HortonWorks 从 2.2 升级到 2.3，并对 Hue 进行了所有必要的更改（在 HortonWorks 文档中给出），但是在 Hive 浏览器上访问 Tez 时，hue 客户端存在以下问题，而 Hive CLI 上的 Tez 工作得很好。早些时候（HDP 2.2），Tez 与 Hue 兼容，但是在 HDP 2.3 上使用 Tez 的 Hue 客户端是否存在问题？

问题 1：将 HDP 2.2 升级到 2.3 后，Tez 仍会在 HDFS 和本地位置查找 HDP 2.2 库文件。HDP 2.2 位置：

HDFS： /hdp/apps/2.2.9.0-3393

本地文件： /usr/hdp/2.2.9.0-3393

问题 1 的临时解决方案：将 2.3 支持文件移至 2.2

HDFS：

本地文件：

从技术上讲，Tez 必须查找“/usr/hdp/current”目录，即 2.3.2.0-2950。

问题 2：通过 Hue 在 Tez 上运行 Hive 会出现以下错误：

错误：

通过一些研究发现，当运行 Hive 查询不需要执行 Tez 时，Hue 客户端版本与 AM 版本匹配，而任何需要执行 tez 的查询显示为未知。

当不需要执行 Tez 时，客户端版本和 AM 版本匹配：

为应用程序 appattempt_1470224940790_0082_000001 创建了 DAGAppMaster，versionInfo=[ component=tez-dag, version=0.7.0.2.3.2.0-2950, revision=4900a9cea70487666ace4c9e490d4d8fc1fee96f, SCM-URL=scm:git: https://git-wip- .org/repos/asf/tez.git , buildTime=20150930-1859 ] [INFO] [main] |app.DAGAppMaster|: 比较客户端版本和 AM 版本，clientVersion=0.7.0.2.3.2.0-2950, AMVersion= 0.7.0.2.3.2.0-2950
启用 Tez 执行时客户端版本和 AM 版本不匹配：

为应用程序 appattempt_1470224940790_0092_000001 创建了 DAGAppMaster，versionInfo=[ component=tez-dag, version=0.7.0.2.3.2.0-2950, revision=4900a9cea70487666ace4c9e490d4d8fc1fee96f, SCM-URL=scm:git: https://git-wip- .org/repos/asf/tez.git , buildTime=20150930-1859 ] 将客户端版本与 AM 版本进行比较，clientVersion=Unknown，AMVersion=0.7.0.2.3.2.0-2950 [ERROR] [main] |app.DAGAppMaster| : 发现不兼容的版本，clientVersion=Unknown, AMVersion=0.7.0.2.3.2.0-2950

当通过 HDP 2.3 上的 Hue 启用 Tez 时，任何人都可以帮助找到解决不兼容版本错误的方法。

2016-08-19T10:55:42.407

0 投票

2 回答

520 浏览

hadoop - Hive 分区不适用于动态变量

如果我跑

Hive 仅从适当的分区中提取记录。或者，如果我跑

partition_variable 上的条件被视为谓词而不是分区，并且 hive 会遍历表中的所有记录。

这显然是一个人为的例子，但在我的特定用例中是必要的。无论如何强制配置单元使用它进行分区？

提前致谢。

hadoop mapreduce hive tez

2016-08-31T22:18:33.867

0 投票

0 回答

186 浏览

csv - 从 hadoop 加载 CSV 到 hive - 可扩展性问题 20GB/h

我正在寻找一种方法来加速将数据从 hadoop 加载到我使用 presto 查询的配置单元。在我的工作流程中，我从 hadoop 上的单个 csv 文件开始。

瞬间，它只在 csv 上创建视图。
然后count all已经很慢了...

目标表准备如下：

并加载：

这个单表从 hadoop 加载到 hive 大约需要 5 小时以上。对于具有两个整数列的 103GB csv 来说，这不是太长了吗？理想情况下，我的目标不仅是在 5e9 上更好地缩放，而且还包括更大的系列。
10 台机器 250GB 的集群应该可以处理这个问题。它是否与我的版本有关（hive-0.14.0.2.2.6.3）或某些自定义设置可以在这里发挥作用？

csv hadoop hive presto tez

2016-09-03T18:12:10.557

0 投票

1 回答

596 浏览

hadoop - 为什么有人会在 Tez 上运行 Spark/Flink？

在Saha 等人的Tez 论文中，显示了带有 Tez 的 Hadoop 2 的以下模块化架构：

带有 Tez 的 Hadoop 2

为什么有人会在 Tez 上运行 Spark/Flink？

有什么优势？更好地利用 YARN？

hadoop apache-spark apache-flink apache-tez tez

2016-09-09T12:42:49.703

0 投票

0 回答

328 浏览

hadoop - Hive 创建表不插入数据

我正在运行以下配置单元查询。mapreduce 完成后，我看到没有插入任何数据。

但是，如果我只是运行如下选择查询，我会得到结果。t1、t2 和 t3 的数据类型相同。最后，我得到以下声明：

"numFiles = 27 , numRows = 0 and totalSize = 34567...."

任何想法可能是什么问题。我正在使用 TEZ 运行它。

hadoop mapreduce hive tez

2016-09-15T12:55:06.473

0 投票

0 回答

1461 浏览

hadoop - Apache Tez 配置问题

我想用apache hadoop配置apache tez。但是遇到问题......任何人都可以建议我如何解决这个问题。

引起： org.apache.tez.dag.api.TezUncheckedException: tez jars 配置无效，配置中没有定义tez.lib.uris

hadoop hive apache-pig tez

2016-10-07T15:00:54.843

0 投票

0 回答

305 浏览

hive - 访问 tez 工作历史

我想从 tez 执行引擎的作业历史服务器获取作业信息。

目前，所有 map reduce 作业都反映在作业历史服务器上，但不反映在 tez 上。

作业历史正在使用某种日志来获取所有信息。我在哪里可以找到这些日志？如果作业历史服务器上的信息不可用，我可以解析这些日志以获取我需要的信息。

我已经尝试过解析 pig-tez cmd 日志。不包含足够信息且不适用于 tez 上的 hive 的解析。

hive apache-pig hadoop2 tez bigdata

2016-10-18T06:33:52.867

0 投票

0 回答

350 浏览

hadoop - Hive 2.1.0 问题 org.apache.hadoop.hive.ql.metadata.HiveException：无法移动源

我正在使用 hadoop 2.7.2 ，hive 2.1.0 已启用 tez 但又恢复为使用 mr 作为执行引擎，并在尝试在 orc 和 parquet 表上运行 Insert Select 查询时遇到以下错误，

关于这个问题的任何线索，都会受到高度评价。

问候。

hadoop hive hdfs tez

2016-10-20T22:12:51.813

0 投票

4 回答

20749 浏览

hadoop - How do I increase Tez's container physical memory?

I've been running some hive scripts on an aws emr 4.8 cluster with hive 1.0 and tez 0.8.

My configurations look like this:

And my global configs are:

While running my script, I get the following error:

On googling this error, I read that set tez.task.resource.memory.mb will change the physical memory limit, but clearly I was mistaken. What am I missing?

hadoop hive amazon-emr apache-tez tez

2016-10-26T01:45:54.477

0 投票

0 回答

289 浏览

apache - 如何在 Tez 查询执行中找到 CPU 时间？

我目前正在使用 MapReduce 和 Tez 测试存储在 HDFS 中的表的时间执行。在 MapReduce 中，我可以很容易地看到该进程所花费的 CPU 时间。

MapReduce 示例

我不清楚 Tez 查询显示的结果。

特斯示例

有人可以解释图片中显示的两次吗？我在哪里可以找到 Tez 查询的 CPU 时间。

编辑 - 我发现时间记录为 vcore-seconds，这是核心数乘以每个核心运行的秒数。还有其他可以使用的指标吗？

apache hadoop hive hdfs tez

2016-11-03T04:50:27.000

问题标签 [tez]

Reference