问题标签 [apache-tez]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

173 问题

0 投票

2 回答

1203 浏览

hive - 在 hive 上使用 UDF 时如何修复此 Kryo 异常？

我有一个在 hortonworks 2.6 沙盒中工作的配置单元查询，但它在沙盒版本上不起作用。3.0 因为这个例外：

我如何解决它？

我已经看到一些建议这样做的答案，set hive.exec.parallel=false;但它不起作用，我仍然收到此错误。

我检查了我使用的库的版本，并确保它hadoop version与hive --version我在我的 jar 中使用的库的版本相匹配。

我也试过这个：https ://community.hortonworks.com/content/supportkb/150199/orgapachehivecomesotericsoftwarekryokryoexception-1.html它也没有工作。

2019-02-07T11:17:20.023

0 投票

1 回答

43 浏览

hadoop - 减少大查询的执行时间

我的查询需要 30 多分钟才能处理此查询。它确实适用于非常大的数据集，但是我可能缺少一些可以减少执行时间的基本内容。

查询适用于许多减速器阶段，每个阶段使用 1000 多个减速器。在 Tez 引擎上运行。

我尝试启用 CBO 但没有运气，还尝试将减速器限制为 500，但执行时间仍然很长。

hadoop hive hiveql query-performance apache-tez

2019-02-08T08:27:50.840

0 投票

1 回答

25 浏览

performance - 根据解释计划，在重写此查询时需要帮助，该查询多次使用相同的数据集

我们的开发团队运行了一个查询，该查询占用了大量资源，并且查看了解释计划，看起来它多次使用相同的数据集。无论如何我们可以重新编写这个查询。

现在，我尝试用直接连接替换相关查询，但除了一个细微差别之外，多个相关查询看起来仍然相同。

performance hive hadoop-yarn query-tuning apache-tez

2019-02-11T07:21:58.643

0 投票

2 回答

1897 浏览

sql - 在 hive 中运行 HQL 时抛出异常

我想运行一个 select 语句并将结果放入一个表中，我确定它不是语法错误。

总部：

然后我得到以下输出：

我已经尝试了两次，但我得到了相同的结果。顺便说一句，MID_DealerVehicleOutputValue表中总共有 336258079 行。这是导致错误吗？在此之前，其他一些类似的语句已成功运行，但要处理的行数不多。

sql hive query-optimization hiveql apache-tez

2019-02-21T05:58:00.890

0 投票

1 回答

836 浏览

performance - 蜂巢分析查询需要很多时间

为了加快对大表的 ETL 查询，我们analyze在晚上对这些表和日期列运行了许多查询。但是这些analyze对列的查询会占用大量内存和时间。我们正在使用 tez。有什么方法可以优化analyze查询，比如一些设置命令。

performance hadoop hive query-tuning apache-tez

2019-03-07T12:21:45.613

0 投票

1 回答

115 浏览

hadoop - hive 查询多次命中同一个视图，任何处理此查询的最佳方式

我们正在支持一个运行通过 ETL 工具触发的大型配置单元查询的应用程序。

映射后的查询在 hive 上运行。查询非常大，但它的结构看起来像这样。

我当然不认为，他们需要多次扫描同一个视图。有没有更简单的方法来写这个。或者肯定可以合并多个阶段映射，这是我的猜测。除此之外，还有其他更简单的方法可以解决这个问题。我是新来的，在支持方面，但是这个查询运行了几个小时，所以需要检查它是否以正确的方式运行。我确信可以丢弃一个内部选择，我可以尝试其他任何方法。

hadoop hive query-optimization hadoop-yarn apache-tez

2019-03-08T07:54:21.310

0 投票

1 回答

53 浏览

hadoop - 尽管添加了会话设置，但查询仍需要时间

以下是 ETL 生成的查询

询问 -

由于此查询是在 hive 下推模式下生成的，因此我们在环境 sql 中添加了以下设置

但我们没有看到任何显着的收益。我们确实可以选择以传统的批处理模式移动此作业 - 我们通过 shell 脚本运行此作业。是否有通过减少执行时间对查询进行任何更改的范围。我确信我们可以摆脱所有类型转换并减少那里的执行时间。有没有什么额外的东西，我们可以试试。

hadoop hive hadoop-yarn hiveql apache-tez

2019-03-15T07:27:34.143

0 投票

1 回答

134 浏览

hadoop - 在我们的发现集群上提高纱线容器利用率所需的建议

当前设置

我们有 10 个节点的发现集群。
该集群的每个节点都有 24 个内核和 264 GB 内存为后台进程保留一些内存和 CPU，我们计划使用 240 GB 内存。
现在，当涉及到容器设置时，因为每个容器可能需要 1 个核心，所以我们最多可以有 24 个容器，每个容器都有 10GB 内存。
通常集群有 1-2 GB 内存的容器，但我们受到可用内核的限制，或者我可能遗漏了一些东西

问题陈述

由于我们的集群被数据科学家和分析师广泛使用，只有 24 个容器是不够的。这会导致严重的资源争用。
有什么办法可以增加容器的数量吗？

我们正在考虑的选项

如果我们要求团队在一个文件中运行许多 tez 查询（不是单独的），那么我们将最多保留一个容器。

要求

有没有其他方法可以管理我们的发现集群。
是否有可能减小容器尺寸。
vcore（因为它是一个逻辑概念）可以由多个容器共享吗？

hadoop mapreduce hadoop-yarn apache-tez planning

2019-03-20T07:28:42.980

0 投票

1 回答

1982 浏览

hive - 如何减少查询中的容器数量

我有一个使用太多容器和太多内存的查询。（使用了 97% 的内存）。有没有办法设置查询中使用的容器数量并限制最大内存？该查询正在 Tez 上运行。

提前致谢

hive mapreduce ambari apache-tez hive-configuration

2019-04-01T01:49:05.817

0 投票

1 回答

52 浏览

hadoop - 确认重写查询

原始查询：

我可以用下面的查询替换上面的查询吗：

原因： 没有聚合所以 group-by 没有意义，但仍然确认我的方法我正在使用 TEZ 引擎在 hive 上运行此查询

hadoop hive hiveql apache-tez

2019-04-03T11:24:18.170

1 2 3 4 5 6 7 8 9 10

问题标签 [apache-tez]

Reference