问题标签 [tez]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
467 浏览

hadoop - 我们可以插入外部表吗

我正在我公司的生产环境中调试大数据代码。Hive 返回以下错误:

经过调查,我发现这个错误可能是由 BoneCP 的 connectionPoolingType 属性引起的,但是集群支持团队告诉我他们通过升级 BoneCP 修复了这个错误。

我的问题是:我们可以插入 Hive 中的外部表,因为我对插入脚本有疑问吗?

0 投票
1 回答
1130 浏览

amazon-web-services - AWS Data Pipeline:Tez 在简单的 HiveActivity 上失败

我正在尝试为我的 POC 运行简单的 AWS Data Pipeline。我的情况如下:从存储在 S3 上的 CSV 获取数据,对它们执行简单的配置单元查询并将结果放回 S3。

我已经创建了非常基本的管道定义并尝试在不同的 emr 版本上运行它:4.2.0 和 5.3.1 - 尽管在不同的地方都失败了。

所以管道定义如下:

CSV 文件如下所示:

HiveActivity 只是一个简单的查询(来自 AWS 文档的副本):

"INSERT OVERWRITE TABLE ${output1} select policyID, statecode from ${input1};"

但是在 emr-5.3.1 上运行时失败:

深入日志,我可以发现以下异常:

在 emr-4.2.0 上运行时,我又发生了一次崩溃:

S3 和 EMR 集群都在同一个区域并在同一个 AWS 账户下运行。我用 S3DataNode 和 EMRCluster 配置尝试了一堆实验,但它总是崩溃。此外,我在 HiveActivity、文档或 github 上都找不到任何数据管道的工作示例。

有人可以帮我弄清楚吗?谢谢你。

0 投票
1 回答
83 浏览

cloudera-cdh - tez 构建错误 - shufflehandler

我正在安装基于 Hadoop 2.6.0-cdh5.10.0 的 Tez-0.8.4。我得到了这个错误。当我尝试使用 maven 构建 Tez 源时,请帮助我。

/apache-tez-0.8.4-src/tez-ext-service-tests/src/test/java/org/apache/tez/shufflehandler/ShuffleHandler.java:[370,18] 找不到符号 [ERROR] 符号:方法 getHeader(java.lang.String) [ERROR] 位置:org.jboss.netty.handler.codec.http.HttpRequest 类型的变量请求

0 投票
0 回答
354 浏览

performance - 加入 Tez 中的两张大桌子

是否有任何建议可以加快连接两个非常大的配置单元表 (> 2 TB) 的查询性能?使用的执行引擎是 Tez 。这两个表都是未分区的并且是文本格式的。集群有 64 个节点,每个节点有 128 GB 内存。

0 投票
1 回答
299 浏览

hadoop - tez 上的 hive 不支持 hdfs 联盟

hive 版本是 apache hive-2.1.0 tez 版本是 apachetez-0.8.4 我设置tez.lib.uris=viewfs://nsX/nameservice/hive/lib/tez-0.8.4-zdh7.1.1-SNAPSHOT-minimal.tar.gz

当我在 hive 上运行 tez 作业时,它总是出现问题

0 投票
0 回答
8412 浏览

hadoop - hadoop - 如何杀死由 hive 启动的 TEZ 作业?

以下是我能找到的。但问题是如果我们重用 jdbc hive 会话,所有 hive 查询都使用相同的 Application-Id。有什么办法可以杀死一个dag?

可以使用以下命令列出 Tez 作业:yarn application -list

可以使用以下命令终止 Tez 作业:yarn application -kill Application-Id

0 投票
1 回答
843 浏览

hive - TEZ 上的 HIVE(java.lang.RuntimeException:本机 snappy 库不可用:此版本的 libhadoop 是在没有 snappy 支持的情况下构建的)

我的脚本不断出现同样的错误

代码本身看起来像这样

我检查了是否安装了 snappy

并得到

我对 tez 的设置是

我还应该注意,并非 tez 上的所有脚本都失败了。一些工作。像这个

为什么会这样?

我检查了这个这个这个。没有帮助。此外,当我在 MR 上运行脚本时,它们都可以工作。

0 投票
2 回答
1080 浏览

hadoop - 在 hive 中使用“Collect_List()”函数时出错

每当我在 Hive 上运行函数“collect_list”时,它总是会抛出一个错误:

这是示例:

数据:

我在 hive 的终端上运行查询,这是我的查询:

我想要这样的结果:

在使用 collect_list 功能之前我需要配置一些东西吗?谢谢你。

0 投票
1 回答
3525 浏览

apache-spark - Tez 上的 Hive 在 Spark 2 中不起作用

当使用 HDP 2.5 和 spark 1.6.2 时,我们使用带有 Tez 的 Hive 作为其执行引擎并且它工作正常。

但是当我们使用 spark 2.1.0 迁移到 HDP 2.6 时,Hive 无法使用 Tez 作为其执行引擎,并且在DataFrame.saveAsTable调用 API 时会引发以下异常:

java.lang.NoClassDefFoundError: org/apache/tez/dag/api/SessionNotRunning at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:529) at org.apache.spark.sql.hive.client.HiveClientImpl.<init> HiveClientImpl.scala:188)

在查看了这个问题的答案之后,我们将 hive 执行引擎切换到 MR (MapReduce) 而不是 Tez 并且它起作用了。

但是,我们希望在 Tez 上与 Hive 合作。为了让 Tez 上的 Hive 工作,解决上述异常需要什么?

0 投票
4 回答
2847 浏览

hadoop - Hive 执行“插入......值......”非常慢

我建立了一个 hadoop & hive 集群并尝试做一些测试。但它真的很慢。

桌子

表值计数

sql执行

我已经多次执行这个 sql,每次大约需要 4 或 5 分钟

hadoop 容器日志

hadoop 集群模式

而 app05/08/09/10 是我的测试版机器,每台都有 32 个 vcore 和 48GB 内存。

hadoop 配置

核心站点.xml

hdfs-site.xml

maprd-site.xml

tez-site.xml

纱线站点.xml