问题标签 [tez]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 将 HDP 2.2 升级到 2.3 后,Tez 上的 Hive 在 Hue 上不起作用(错误:客户端版本 = 未知)
我已经将我们的 Hadoop 集群的 HortonWorks 从 2.2 升级到 2.3,并对 Hue 进行了所有必要的更改(在 HortonWorks 文档中给出),但是在 Hive 浏览器上访问 Tez 时,hue 客户端存在以下问题,而 Hive CLI 上的 Tez 工作得很好。早些时候(HDP 2.2),Tez 与 Hue 兼容,但是在 HDP 2.3 上使用 Tez 的 Hue 客户端是否存在问题?
问题 1:将 HDP 2.2 升级到 2.3 后,Tez 仍会在 HDFS 和本地位置查找 HDP 2.2 库文件。HDP 2.2 位置:
HDFS: /hdp/apps/2.2.9.0-3393
本地文件: /usr/hdp/2.2.9.0-3393
问题 1 的临时解决方案:将 2.3 支持文件移至 2.2
HDFS:
本地文件:
从技术上讲,Tez 必须查找“/usr/hdp/current”目录,即 2.3.2.0-2950。
问题 2:通过 Hue 在 Tez 上运行 Hive 会出现以下错误:
错误:
通过一些研究发现,当运行 Hive 查询不需要执行 Tez 时,Hue 客户端版本与 AM 版本匹配,而任何需要执行 tez 的查询显示为未知。
当不需要执行 Tez 时,客户端版本和 AM 版本匹配:
为应用程序 appattempt_1470224940790_0082_000001 创建了 DAGAppMaster,versionInfo=[ component=tez-dag, version=0.7.0.2.3.2.0-2950, revision=4900a9cea70487666ace4c9e490d4d8fc1fee96f, SCM-URL=scm:git: https://git-wip- .org/repos/asf/tez.git , buildTime=20150930-1859 ] [INFO] [main] |app.DAGAppMaster|: 比较客户端版本和 AM 版本,clientVersion=0.7.0.2.3.2.0-2950, AMVersion= 0.7.0.2.3.2.0-2950
启用 Tez 执行时客户端版本和 AM 版本不匹配:
为应用程序 appattempt_1470224940790_0092_000001 创建了 DAGAppMaster,versionInfo=[ component=tez-dag, version=0.7.0.2.3.2.0-2950, revision=4900a9cea70487666ace4c9e490d4d8fc1fee96f, SCM-URL=scm:git: https://git-wip- .org/repos/asf/tez.git , buildTime=20150930-1859 ] 将客户端版本与 AM 版本进行比较,clientVersion=Unknown,AMVersion=0.7.0.2.3.2.0-2950 [ERROR] [main] |app.DAGAppMaster| : 发现不兼容的版本,clientVersion=Unknown, AMVersion=0.7.0.2.3.2.0-2950
当通过 HDP 2.3 上的 Hue 启用 Tez 时,任何人都可以帮助找到解决不兼容版本错误的方法。
hadoop - Hive 分区不适用于动态变量
如果我跑
Hive 仅从适当的分区中提取记录。或者,如果我跑
partition_variable 上的条件被视为谓词而不是分区,并且 hive 会遍历表中的所有记录。
这显然是一个人为的例子,但在我的特定用例中是必要的。无论如何强制配置单元使用它进行分区?
提前致谢。
csv - 从 hadoop 加载 CSV 到 hive - 可扩展性问题 20GB/h
我正在寻找一种方法来加速将数据从 hadoop 加载到我使用 presto 查询的配置单元。在我的工作流程中,我从 hadoop 上的单个 csv 文件开始。
瞬间,它只在 csv 上创建视图。
然后count all已经很慢了...
目标表准备如下:
并加载:
这个单表从 hadoop 加载到 hive 大约需要 5 小时以上。对于具有两个整数列的 103GB csv 来说,这不是太长了吗?理想情况下,我的目标不仅是在 5e9 上更好地缩放,而且还包括更大的系列。
10 台机器 250GB 的集群应该可以处理这个问题。它是否与我的版本有关(hive-0.14.0.2.2.6.3
)或某些自定义设置可以在这里发挥作用?
hadoop - Hive 创建表不插入数据
我正在运行以下配置单元查询。mapreduce 完成后,我看到没有插入任何数据。
但是,如果我只是运行如下选择查询,我会得到结果。t1、t2 和 t3 的数据类型相同。最后,我得到以下声明:
"numFiles = 27 , numRows = 0 and totalSize = 34567...."
任何想法可能是什么问题。我正在使用 TEZ 运行它。
hadoop - Apache Tez 配置问题
我想用apache hadoop配置apache tez。但是遇到问题......任何人都可以建议我如何解决这个问题。
引起: org.apache.tez.dag.api.TezUncheckedException: tez jars 配置无效,配置中没有定义tez.lib.uris
hive - 访问 tez 工作历史
我想从 tez 执行引擎的作业历史服务器获取作业信息。
目前,所有 map reduce 作业都反映在作业历史服务器上,但不反映在 tez 上。
作业历史正在使用某种日志来获取所有信息。我在哪里可以找到这些日志?如果作业历史服务器上的信息不可用,我可以解析这些日志以获取我需要的信息。
我已经尝试过解析 pig-tez cmd 日志。不包含足够信息且不适用于 tez 上的 hive 的解析。
hadoop - Hive 2.1.0 问题 org.apache.hadoop.hive.ql.metadata.HiveException:无法移动源
我正在使用 hadoop 2.7.2 ,hive 2.1.0 已启用 tez 但又恢复为使用 mr 作为执行引擎,并在尝试在 orc 和 parquet 表上运行 Insert Select 查询时遇到以下错误,
关于这个问题的任何线索,都会受到高度评价。
问候。
hadoop - How do I increase Tez's container physical memory?
I've been running some hive scripts on an aws emr 4.8
cluster with hive 1.0 and tez 0.8.
My configurations look like this:
And my global configs are:
While running my script, I get the following error:
On googling this error, I read that set tez.task.resource.memory.mb
will change the physical memory limit, but clearly I was mistaken. What am I missing?