问题标签 [tez]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
parquet - Impala 2.7 无法从使用 Tez 的 Hive 创建的 parquet 表中读取任何数据
我正在使用使用多个联合所有运算符的查询填充镶木地板存储格式的分区 Hive 表。使用 Tez 执行查询,默认设置会导致多个并发 Tez writer 创建 HDFS 结构,其中 parquet 文件位于分区文件夹下的子文件夹中(文件夹名称为 Tez writer ID)。例如 /apps/hive/warehouse/scratch.db/test_table/part=p1/8/000000_0
即使在使元数据无效并收集表上的统计信息后,Impala 在查询表时也会返回零行。问题似乎在于 Impala 没有遍历分区子文件夹来查找 parquet 文件。
如果我将 hive.merge.tezfiles 设置为 true(默认为 false),有效地强制 Tez 使用额外的处理步骤将多个文件合并为一个,生成的 parquet 文件直接写入分区文件夹下,刷新后 Impala 可以看到新分区或更新分区中的数据。
我想知道 Impala 是否有一个配置选项来指示它查看分区子文件夹,或者 Impala 是否有一个补丁可以改变它在这方面的行为。
hadoop - 为什么蜂巢加入需要太长时间?
我正在运行一个基本上是这样的代码:
table1的记录数=7009102 table2的记录数=1787493
我的脚本中有类似的 6 个查询,但我的脚本卡在第 4 个这样的查询上。我尝试通过 tez 和 mapreduce 运行,但两者都有相同的问题。
在 mapreduce 中,它卡在 map 0% 并且即使在一小时后也减少了 0%。Tez 中没有减速器,1 小时内只有 22%。
检查日志后,它会显示许多条目,例如“TaskAttempt attempt_12334_m_000003_0 的进度是:0.0”。
我在 tez 中运行了这项工作,现在已经将近 3 个小时了,这项工作即将完成,其中 2 次在 Map-2 Vertice 中失败。
hadoop - 在配置单元中执行查询时显示 Tez 顶点错误
谁能解释使用 Tez 执行引擎时 Hive 中的 VERTEX_FAILURE 错误是什么?还有它的根本原因是什么?
hadoop - 使用 Hive、Tez 和 offset 执行查询
我试图在我试图排除特定记录的配置单元中执行偏移查询,但总是得到以下错误:
询问:
错误:
我尝试按照 SO 帖子中的建议删除表并再次创建它,但仍然遇到相同的错误。此外,我已经TEZ engine
在 hive 中设置了更快的数据处理,但是上面的查询会启动 map reduce 作业。
为什么会这样?当我执行另一个查询时,它会给我直接的结果via TEZ engine
。
谁能解释我这种奇怪的行为以及解决我的问题?
环境:
hadoop - 每个 Mapper 执行的任务
我有一个有多个连接的 sql。
以上是最近几个小时运行的日志中的行。如何检查 map 8 正在做什么以及为什么 2 个映射器需要这么长时间
关于每个映射器在 tez 中所做的任何想法都会有所帮助。
hadoop - Hive Testbench 数据生成失败
我克隆了Hive测试台以尝试在使用 Hadoop v2.9.0、Hive 2.3.0 和 Tez 0.9.0 的 Apache 二进制发行版构建的 hadoop 集群上运行 Hive 基准测试。
我设法完成了两个数据生成器的构建:TPC-H 和 TPC-DS。然后在 TPC-H 和 TPC-DS 上的下一步数据生成都失败了。失败非常一致,每次它都会在完全相同的步骤失败并产生相同的错误消息。
对于 TPC-H,数据生成屏幕输出在这里:
对于 TPC-DS,错误消息如下:
我注意到在作业运行期间和失败后的目标临时 HDFS 目录始终为空,除了生成的子目录。
现在我什至不知道失败是由于 Hadoop 配置问题,还是软件版本不匹配或任何其他原因。有什么帮助吗?
hadoop - 在 Hive 中运行删除或更新时出现间歇性问题
我的集群有一个非常奇怪的行为,我在 Hive cli 中运行删除/更新语句,有时工作正常,有时失败,下面是命令。表启用了 ACID。
例外情况如下:
找不到任何解决方案。
是什么原因,我需要启用某些东西还是需要验证 cli 中的任何配置或遗漏某些东西?