问题标签 [apache-tez]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1203 浏览

hive - 在 hive 上使用 UDF 时如何修复此 Kryo 异常?

我有一个在 hortonworks 2.6 沙盒中工作的配置单元查询,但它在沙盒版本上不起作用。3.0 因为这个例外:

我如何解决它?

我已经看到一些建议这样做的答案,set hive.exec.parallel=false;但它不起作用,我仍然收到此错误。

我检查了我使用的库的版本,并确保它hadoop versionhive --version我在我的 jar 中使用的库的版本相匹配。

我也试过这个:https ://community.hortonworks.com/content/supportkb/150199/orgapachehivecomesotericsoftwarekryokryoexception-1.html它也没有工作。

0 投票
1 回答
43 浏览

hadoop - 减少大查询的执行时间

我的查询需要 30 多分钟才能处理此查询。它确实适用于非常大的数据集,但是我可能缺少一些可以减少执行时间的基本内容。

查询适用于许多减速器阶段,每个阶段使用 1000 多个减速器。在 Tez 引擎上运行。

我尝试启用 CBO 但没有运气,还尝试将减速器限制为 500,但执行时间仍然很长。

0 投票
1 回答
25 浏览

performance - 根据解释计划,在重写此查询时需要帮助,该查询多次使用相同的数据集

我们的开发团队运行了一个查询,该查询占用了大量资源,并且查看了解释计划,看起来它多次使用相同的数据集。无论如何我们可以重新编写这个查询。

现在,我尝试用直接连接替换相关查询,但除了一个细微差别之外,多个相关查询看起来仍然相同。

0 投票
2 回答
1897 浏览

sql - 在 hive 中运行 HQL 时抛出异常

我想运行一个 select 语句并将结果放入一个表中,我确定它不是语法错误。

总部:

然后我得到以下输出:

我已经尝试了两次,但我得到了相同的结果。顺便说一句,MID_DealerVehicleOutputValue表中总共有 336258079 行。这是导致错误吗?在此之前,其他一些类似的语句已成功运行,但要处理的行数不多。

0 投票
1 回答
836 浏览

performance - 蜂巢分析查询需要很多时间

为了加快对大表的 ETL 查询,我们analyze在晚上对这些表和日期列运行了许多查询。但是这些analyze对列的查询会占用大量内存和时间。我们正在使用 tez。有什么方法可以优化analyze查询,比如一些设置命令。

0 投票
1 回答
115 浏览

hadoop - hive 查询多次命中同一个视图,任何处理此查询的最佳方式

我们正在支持一个运行通过 ETL 工具触发的大型配置单元查询的应用程序。

映射后的查询在 hive 上运行。查询非常大,但它的结构看起来像这样。

我当然不认为,他们需要多次扫描同一个视图。有没有更简单的方法来写这个。或者肯定可以合并多个阶段映射,这是我的猜测。除此之外,还有其他更简单的方法可以解决这个问题。我是新来的,在支持方面,但是这个查询运行了几个小时,所以需要检查它是否以正确的方式运行。我确信可以丢弃一个内部选择,我可以尝试其他任何方法。

0 投票
1 回答
53 浏览

hadoop - 尽管添加了会话设置,但查询仍需要时间

以下是 ETL 生成的查询

询问 -

由于此查询是在 hive 下推模式下生成的,因此我们在环境 sql 中添加了以下设置

但我们没有看到任何显着的收益。我们确实可以选择以传统的批处理模式移动此作业 - 我们通过 shell 脚本运行此作业。是否有通过减少执行时间对查询进行任何更改的范围。我确信我们可以摆脱所有类型转换并减少那里的执行时间。有没有什么额外的东西,我们可以试试。

0 投票
1 回答
134 浏览

hadoop - 在我们的发现集群上提高纱线容器利用率所需的建议

当前设置

  • 我们有 10 个节点的发现集群。
  • 该集群的每个节点都有 24 个内核和 264 GB 内存 为后台进程保留一些内存和 CPU,我们计划使用 240 GB 内存。
  • 现在,当涉及到容器设置时,因为每个容器可能需要 1 个核心,所以我们最多可以有 24 个容器,每个容器都有 10GB 内存。
  • 通常集群有 1-2 GB 内存的容器,但我们受到可用内核的限制,或者我可能遗漏了一些东西

问题陈述

  • 由于我们的集群被数据科学家和分析师广泛使用,只有 24 个容器是不够的。这会导致严重的资源争用。

  • 有什么办法可以增加容器的数量吗?

我们正在考虑的选项

  • 如果我们要求团队在一个文件中运行许多 tez 查询(不是单独的),那么我们将最多保留一个容器。

要求

  1. 有没有其他方法可以管理我们的发现集群。
  2. 是否有可能减小容器尺寸。
  3. vcore(因为它是一个逻辑概念)可以由多个容器共享吗?
0 投票
1 回答
1982 浏览

hive - 如何减少查询中的容器数量

我有一个使用太多容器和太多内存的查询。(使用了 97% 的内存)。有没有办法设置查询中使用的容器数量并限制最大内存?该查询正在 Tez 上运行。

提前致谢

0 投票
1 回答
52 浏览

hadoop - 确认重写查询

原始查询:

我可以用下面的查询替换上面的查询吗:

原因: 没有聚合所以 group-by 没有意义,但仍然确认我的方法我正在使用 TEZ 引擎在 hive 上运行此查询