问题标签 [tez]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

95 问题

0 投票

1 回答

467 浏览

hadoop - 我们可以插入外部表吗

我正在我公司的生产环境中调试大数据代码。Hive 返回以下错误：

经过调查，我发现这个错误可能是由 BoneCP 的 connectionPoolingType 属性引起的，但是集群支持团队告诉我他们通过升级 BoneCP 修复了这个错误。

我的问题是：我们可以插入 Hive 中的外部表，因为我对插入脚本有疑问吗？

2017-02-22T15:41:04.100

0 投票

1 回答

1130 浏览

amazon-web-services - AWS Data Pipeline：Tez 在简单的 HiveActivity 上失败

我正在尝试为我的 POC 运行简单的 AWS Data Pipeline。我的情况如下：从存储在 S3 上的 CSV 获取数据，对它们执行简单的配置单元查询并将结果放回 S3。

我已经创建了非常基本的管道定义并尝试在不同的 emr 版本上运行它：4.2.0 和 5.3.1 - 尽管在不同的地方都失败了。

所以管道定义如下：

CSV 文件如下所示：

HiveActivity 只是一个简单的查询（来自 AWS 文档的副本）：

"INSERT OVERWRITE TABLE ${output1} select policyID, statecode from ${input1};"

但是在 emr-5.3.1 上运行时失败：

深入日志，我可以发现以下异常：

在 emr-4.2.0 上运行时，我又发生了一次崩溃：

S3 和 EMR 集群都在同一个区域并在同一个 AWS 账户下运行。我用 S3DataNode 和 EMRCluster 配置尝试了一堆实验，但它总是崩溃。此外，我在 HiveActivity、文档或 github 上都找不到任何数据管道的工作示例。

有人可以帮我弄清楚吗？谢谢你。

amazon-web-services hadoop amazon-data-pipeline tez

2017-02-25T02:00:53.627

0 投票

1 回答

83 浏览

cloudera-cdh - tez 构建错误 - shufflehandler

我正在安装基于 Hadoop 2.6.0-cdh5.10.0 的 Tez-0.8.4。我得到了这个错误。当我尝试使用 maven 构建 Tez 源时，请帮助我。

/apache-tez-0.8.4-src/tez-ext-service-tests/src/test/java/org/apache/tez/shufflehandler/ShuffleHandler.java:[370,18] 找不到符号 [ERROR] 符号：方法 getHeader(java.lang.String) [ERROR] 位置：org.jboss.netty.handler.codec.http.HttpRequest 类型的变量请求

cloudera-cdh tez

2017-03-07T02:28:54.327

0 投票

0 回答

354 浏览

performance - 加入 Tez 中的两张大桌子

是否有任何建议可以加快连接两个非常大的配置单元表 (> 2 TB) 的查询性能？使用的执行引擎是 Tez 。这两个表都是未分区的并且是文本格式的。集群有 64 个节点，每个节点有 128 GB 内存。

performance hadoop hive tez bigdata

2017-03-17T08:16:09.780

0 投票

1 回答

299 浏览

hadoop - tez 上的 hive 不支持 hdfs 联盟

hive 版本是 apache hive-2.1.0 tez 版本是 apachetez-0.8.4 我设置tez.lib.uris=viewfs://nsX/nameservice/hive/lib/tez-0.8.4-zdh7.1.1-SNAPSHOT-minimal.tar.gz

当我在 hive 上运行 tez 作业时，它总是出现问题

hadoop hive hadoop2 tez

2017-03-23T07:35:03.303

0 投票

0 回答

8412 浏览

hadoop - hadoop - 如何杀死由 hive 启动的 TEZ 作业？

以下是我能找到的。但问题是如果我们重用 jdbc hive 会话，所有 hive 查询都使用相同的 Application-Id。有什么办法可以杀死一个dag？

可以使用以下命令列出 Tez 作业：yarn application -list

可以使用以下命令终止 Tez 作业：yarn application -kill Application-Id

hadoop hive hadoop-yarn tez bigdata

2017-03-28T12:17:39.760

0 投票

1 回答

843 浏览

hive - TEZ 上的 HIVE（java.lang.RuntimeException：本机 snappy 库不可用：此版本的 libhadoop 是在没有 snappy 支持的情况下构建的）

我的脚本不断出现同样的错误

代码本身看起来像这样

我检查了是否安装了 snappy

并得到

我对 tez 的设置是

我还应该注意，并非 tez 上的所有脚本都失败了。一些工作。像这个

为什么会这样？

我检查了这个和这个和这个。没有帮助。此外，当我在 MR 上运行脚本时，它们都可以工作。

hive snappy tez

2017-04-19T12:12:52.320

0 投票

2 回答

1080 浏览

hadoop - 在 hive 中使用“Collect_List()”函数时出错

每当我在 Hive 上运行函数“collect_list”时，它总是会抛出一个错误：

这是示例：

数据：

我在 hive 的终端上运行查询，这是我的查询：

我想要这样的结果：

在使用 collect_list 功能之前我需要配置一些东西吗？谢谢你。

hadoop hive hiveql tez

2017-04-20T19:13:28.617

0 投票

1 回答

3525 浏览

apache-spark - Tez 上的 Hive 在 Spark 2 中不起作用

当使用 HDP 2.5 和 spark 1.6.2 时，我们使用带有 Tez 的 Hive 作为其执行引擎并且它工作正常。

但是当我们使用 spark 2.1.0 迁移到 HDP 2.6 时，Hive 无法使用 Tez 作为其执行引擎，并且在DataFrame.saveAsTable调用 API 时会引发以下异常：

java.lang.NoClassDefFoundError: org/apache/tez/dag/api/SessionNotRunning at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:529) at org.apache.spark.sql.hive.client.HiveClientImpl.<init> HiveClientImpl.scala:188)

在查看了这个问题的答案之后，我们将 hive 执行引擎切换到 MR (MapReduce) 而不是 Tez 并且它起作用了。

但是，我们希望在 Tez 上与 Hive 合作。为了让 Tez 上的 Hive 工作，解决上述异常需要什么？

apache-spark hive tez

2017-05-03T10:51:53.890

0 投票

4 回答

2847 浏览

hadoop - Hive 执行“插入......值......”非常慢

我建立了一个 hadoop & hive 集群并尝试做一些测试。但它真的很慢。

桌子

表值计数

sql执行

我已经多次执行这个 sql，每次大约需要 4 或 5 分钟

hadoop 容器日志

hadoop 集群模式

而 app05/08/09/10 是我的测试版机器，每台都有 32 个 vcore 和 48GB 内存。

hadoop 配置

核心站点.xml

hdfs-site.xml

maprd-site.xml

tez-site.xml

纱线站点.xml

hadoop hive hadoop-yarn tez

2017-05-31T09:14:16.660

1 2 3 4 5 6 7 8 9 10

问题标签 [tez]

Reference