问题标签 [tez]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
578 浏览

apache - 由于 tez-ui,Apache Tez 构建失败

由于 tez-ui 失败,我无法使用 tez-release-0.7.0 构建 Apache Tez。这是我在 Ubuntu 中的命令:

mvn clean package -DskipTests=true -Dmaven.javadoc.skip=true -Dfrontend-maven-plugin.version=0.0.23

我现在应该在哪里修复它?非常感谢你们。

0 投票
1 回答
654 浏览

hadoop - 在 Tez 上运行无限时间的 Hive 查询

下面是我尝试在 Hive 上运行的查询,执行引擎为 tez。

  • 当我在 Hive 中对我的数据运行上面的查询时,它会持续运行几个小时而没有任何结果,但在语法上上面的查询是正确的。
  • TABLEA 和 TABLEB 都有数百万条记录。

我尝试更改数据格式、增加容器大小、更改减速器数量和更改堆大小。无论我更改什么参数,查询都会被卡住。

在我的进一步调查中,我注意到 where 条件和窗口函数导致查询无限运行。

这是我的问题:

  • 使查询在海量数据上端到端运行的变化是什么?

谢谢你的帮助

0 投票
1 回答
1040 浏览

hadoop - 何时使用 Hive 引擎 MR,何时使用 TEZ?

在什么条件下使用 Hive 引擎 TEZ 优于 MR?

各自的优缺点是什么?

0 投票
2 回答
6680 浏览

hadoop - “信息:尚未创建 Tez 会话。正在打开会话”挂起

我正在使用 HDP 2.3.0.0-2557,并且正在尝试运行如下配置单元查询:

之后,什么也没有出现,似乎“Tez”出了点问题

此外,我正在尝试使用“mapreduce”而不是“tez”运行相同的查询,并且 mapreduce 作业也挂起(使用启动 hive CLIhive -hiveconf hive.execution.engine=mr

我想知道是否有人可以就如何解决这个问题提供一些指示?

非常感谢!

编辑 1:我找到了以下链接,根据链接,tez 似乎没有足够的资源。所以,我想知道如何清理占用的资源,以便为 tez 提供足够的资源。

0 投票
0 回答
587 浏览

java - 使用 tez 作为执行引擎运行查询时出现 Hive OOM 错误

当我运行以下查询时,我收到以下错误。

它正在启动大约 2 个 mapper 任务和 240 个 reducer 任务,并且这项工作进展顺利且快速,多达 239 个任务,需要 3 小时来完成 4 次任务尝试,然后工作就失败了。表mytest包含 20 亿条记录,其中有一列“clickstream_key”。

我尝试增加数据节点堆、reducer heap、mapper heap、hive.tez.java.opts 但它们都不起作用。对此的任何线索将不胜感激。错误说java堆空间,它是指哪个java堆空间?

0 投票
2 回答
3361 浏览

hadoop - 如何在 Tez 上为 Pig 设置队列名称?

在 TEZ 上运行 Pig 时,如何从命令行设置队列名称?

我想从命令行运行一个 Pig 脚本,例如:

我尝试了以下设置:

但是,我的工作没有在我指定的队列中运行。

谢谢!

0 投票
0 回答
7774 浏览

hive - org.apache.thrift.transport.TTransportException:java.net.SocketTimeoutException:读取超时

我在 hive 中的 SQL 语句之前有以下设置。但是,它无法提交查询,我不断收到 TimeoutException。当我检查 TEZ 视图时,只执行了第一个分析语句。我可以知道这个超时的原因可能是什么吗?

0 投票
1 回答
967 浏览

hadoop - 桶在蜂巢中不起作用

我已经对列进行了分桶,即使设置了所有参数,我也没有获得任何性能优势。下面是我正在使用的查询和我创建的存储桶,我还添加了解释计划结果。

0 投票
0 回答
195 浏览

mapreduce - tez 引擎上的 Hive

目前在我们的生产环境中,我们在 tez 上使用 hive 而不是 mapreduce 引擎,所以我想问一下所有用于连接的 hive 优化是否也与 tez 相关?例如在多表中,有人提到如果连接键相同,那么它将使用单个映射减少作业,但是当我在我们的环境中检查 HQL 时,我们正在加入一个左外表,同一键上有许多表,我没有看到 1减速器,实际上有 17 个减速器在运行。是不是因为 tez 上的 hive 与 mr 上的 hive 不同?

Hive 版本:1.2 Hadoop:2.7 以下是它提到仅使用 1 个减速器的文档 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Joins

0 投票
1 回答
1307 浏览

hadoop - Hive:将查询结果保存在 HDFS 中并加载到新表中

我有一个配置单元表,它有 3 个部分分区 (dt、service_type、pv)

我想在另一个数据库中创建一个新表,其中包含来自该原始表的过滤数据。(按用于分区的列过滤)

所以我使用 SELECT 查询数据,并将结果保存在 HFDS

这是 HDFS 中的结果文件夹结构。它被分成 531 个文件:

hdfs dfs -ls /user/atscale/filterd-ratlog

找到 531 项 -rwxr-xr-x 3 atscale atscale 8838075079 2016-08-18 06:20 /user/atscale/filterd-ratlog/000000_0 -rwxr-xr-x 3 atscale atscale 8879084968 2016-08-18 06:15 /用户/atscale/filterd-ratlog/000001_0 -rwxr-xr-x 3 atscale atscale 8821619748 2016-08-18 06:20 /user/atscale/filterd-ratlog/000002_0 -rwxr-xr-x 3 atscale atscale 8724063719 2016-08 -18 06:20 /user/atscale/filterd-ratlog/000003_0 。. . -rwxr-xr-x 3 atscale atscale 6878819716 2016-08-18 06:42 /user/atscale/filterd-ratlog/000527_0 -rwxr-xr-x 3 atscale atscale 5461395906 2016-08-18 06:27 /user/atscale /filterd-ratlog/000528_0 -rwxr-xr-x 3 atscale atscale 6222887747 2016-08-18 06:26 /user/atscale/filterd-ratlog/000529_0 -rwxr-xr-x 3 atscale atscale 692289350 2016-08-18 06 :37 /user/atscale/filterd-ratlog/000530_0

现在,哇,我可以将 HDFS 文件中的这些数据加载到我的新表中吗?我也想保留分区..