问题标签 [tez]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
829 浏览

parquet - Impala 2.7 无法从使用 Tez 的 Hive 创建的 parquet 表中读取任何数据

我正在使用使用多个联合所有运算符的查询填充镶木地板存储格式的分区 Hive 表。使用 Tez 执行查询,默认设置会导致多个并发 Tez writer 创建 HDFS 结构,其中 parquet 文件位于分区文件夹下的子文件夹中(文件夹名称为 Tez writer ID)。例如 /apps/hive/warehouse/scratch.db/test_table/part=p1/8/000000_0

即使在使元数据无效并收集表上的统计信息后,Impala 在查询表时也会返回零行。问题似乎在于 Impala 没有遍历分区子文件夹来查找 parquet 文件。

如果我将 hive.merge.tezfiles 设置为 true(默认为 false),有效地强制 Tez 使用额外的处理步骤将多个文件合并为一个,生成的 parquet 文件直接写入分区文件夹下,刷新后 Impala 可以看到新分区或更新分区中的数据。

我想知道 Impala 是否有一个配置选项来指示它查看分区子文件夹,或者 Impala 是否有一个补丁可以改变它在这方面的行为。

0 投票
2 回答
4840 浏览

hadoop - 为什么蜂巢加入需要太长时间?

我正在运行一个基本上是这样的代码:

table1的记录数=7009102 table2的记录数=1787493

我的脚本中有类似的 6 个查询,但我的脚本卡在第 4 个这样的查询上。我尝试通过 tez 和 mapreduce 运行,但两者都有相同的问题。

在 mapreduce 中,它卡在 map 0% 并且即使在一小时后也减少了 0%。Tez 中没有减速器,1 小时内只有 22%。

检查日志后,它会显示许多条目,例如“TaskAttempt attempt_12334_m_000003_0 的进度是:0.0”。

我在 tez 中运行了这项工作,现在已经将近 3 个小时了,这项工作即将完成,其中 2 次在 Map-2 Vertice 中失败。

0 投票
1 回答
4987 浏览

hadoop - 在配置单元中执行查询时显示 Tez 顶点错误

谁能解释使用 Tez 执行引擎时 Hive 中的 VERTEX_FAILURE 错误是什么?还有它的根本原因是什么?

0 投票
2 回答
773 浏览

hadoop - 使用 Hive、Tez 和 offset 执行查询

我试图在我试图排除特定记录的配置单元中执行偏移查询,但总是得到以下错误:

询问:

错误:

我尝试按照 SO 帖子中的建议删除表并再次创建它,但仍然遇到相同的错误。此外,我已经TEZ engine在 hive 中设置了更快的数据处理,但是上面的查询会启动 map reduce 作业。
为什么会这样?当我执行另一个查询时,它会给我直接的结果via TEZ engine
谁能解释我这种奇怪的行为以及解决我的问题?

环境:

0 投票
2 回答
12696 浏览

hadoop - 由于 VERTEX_FAILURE,Tez DAG 上的 Hive 查询失败

我有 Ambari 2.5.3 和 HDP 2.6.3 的基本设置,并尝试在下面运行一些简单的查询。我不明白为什么它失败了。你能帮我吗?

更新 1

这就是我在 Hive 配置中所拥有的

在此处输入图像描述

0 投票
1 回答
24 浏览

hadoop - 每个 Mapper 执行的任务

我有一个有多个连接的 sql。

以上是最近几个小时运行的日志中的行。如何检查 map 8 正在做什么以及为什么 2 个映射器需要这么长时间

关于每个映射器在 tez 中所做的任何想法都会有所帮助。

0 投票
1 回答
836 浏览

hadoop - Hive Testbench 数据生成失败

我克隆了Hive测试台以​​尝试在使用 Hadoop v2.9.0、Hive 2.3.0 和 Tez 0.9.0 的 Apache 二进制发行版构建的 hadoop 集群上运行 Hive 基准测试。

我设法完成了两个数据生成器的构建:TPC-H 和 TPC-DS。然后在 TPC-H 和 TPC-DS 上的下一步数据生成都失败了。失败非常一致,每次它都会在完全相同的步骤失败并产生相同的错误消息。

对于 TPC-H,数据生成屏幕输出在这里:

对于 TPC-DS,错误消息如下:

我注意到在作业运行期间和失败后的目标临时 HDFS 目录始终为空,除了生成的子目录。

现在我什至不知道失败是由于 Hadoop 配置问题,还是软件版本不匹配或任何其他原因。有什么帮助吗?

0 投票
1 回答
1922 浏览

hive - tez 上的 hive 抛出“没有 LLAP 守护程序正在运行”错误

我有一个在 Amazon EMR 上的 yarn 集群上运行的LLAP 服务。这是显示 llap 服务已打开的图像,它的名称是llap_service

截屏

我已经将“hive.llap.daemon.service.hosts”设置为“@llap_service”,但是我在 hive 中的查询无法成功,日志是这样的:

在没有 LLAP 的情况下,tez 上的 Hive 可以完美运行,有人能告诉我哪里错了吗?非常感谢。

0 投票
2 回答
315 浏览

hadoop - 在 Hive 中运行删除或更新时出现间歇性问题

我的集群有一个非常奇怪的行为,我在 Hive cli 中运行删除/更新语句,有时工作正常,有时失败,下面是命令。表启用了 ACID

例外情况如下:

找不到任何解决方案。

是什么原因,我需要启用某些东西还是需要验证 cli 中的任何配置或遗漏某些东西?

0 投票
1 回答
656 浏览

hadoop - Hive on tez 在 EMR 计划任务中非常慢

我正在尝试在 tez 上使用 Hive 来查询存储在 S3 中的兽人格式数据。Tez AM 定时任务很慢,很多 Map 任务长时间停留在“PENDING”。 在此处输入图像描述

集群中有足够的资源(我会说已经足够了。有超过 6TB 的内存和超过 1000 个可用的 vcore,在这个作业中每个容器只花费 2GB 内存。这是在 yarn 集群中运行的唯一作业) ,但我只是在调度任务方面做得很慢。

有什么办法可以加快这个过程吗?