问题标签 [apache-tez]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hive - 如何在 HiveQL 中计算每个城市中最受欢迎的设备、操作系统、浏览器?
我有一个包含用户代理字符串(我将其解析为browser
、os
和device
列)和 cityid
的表。我要计算最流行的browser
,os
并device
为每个city
。
这是我的尝试:
所以,最里面的子查询,别名t
只是将我的表连接到另一个将id
's 映射到 city的表上name
,所以我可以在输出中看到实际name
的 s,而不是 city id
。
然后,名为的子查询t2
计算复合键(device
, browser
, os
, city
)的数量。外部查询将所有内容分组到name
窗口中并提取具有最大用户数的行。
我得到的错误是这样的:
失败:SemanticException [错误 10025]:第 1:7 行表达式不在 GROUP BY 键“设备”中
我明白这意味着什么。它说我需要包含device
到group by
中,但如果我这样做,那么它将不会计算我想要的。如何修复我的查询?
另外,我注意到我的一些 hive 查询在 mapreduce 上运行,但不在 tez 上运行。这是为什么?
hadoop - 如何修复 java.lang.IllegalArgumentException:无法识别的 Hadoop 主要版本号:3.1.0?
我在查询中得到一个java.lang.IllegalArgumentException: Unrecognized Hadoop major version number: 3.1.0 exception
。这是查询:
这是我容器中的日志:
我一直无法理解问题出在哪里,一切正常,mapreduce
但不想继续工作tez
。
我对此查询使用用户定义的函数来解析其中一列中的用户代理字符串。
hadoop - 需要从应用程序 id 捕获配置单元查询
我想从应用程序 id 中找到 hive 查询,我知道在 TEZ 视图中我可以看到查询,但我想知道是否有任何 api 可用于从命令行或通过 curl 命令从应用程序 id 查找查询?
hive - 即使在从命令行杀死后,hive 应用程序仍显示正在运行
我在一个相当大的数据集上运行了一个 hive 查询,查询花费了太多时间,所以我决定用以下方法终止应用程序:
现在,当我从 CLI 检查时:
那么上述应用程序不会出现在列表中。
但是,当我从 ambari 登录到 Tez 视图时,应用程序显示仍处于运行状态(自我创建以来几乎 24 小时)。
我尝试从命令行再次杀死它,但它说应用程序已经完成。
我还检查了资源管理器 UI,该作业的状态显示它已被终止。
因此,每当我尝试运行任何新的 hive 作业时,它都会排队,我无法运行任何其他作业。
请帮忙!
hadoop - 减少映射器和减少器以在 Hive 中对非常大的表/视图进行简单查询
我们有一个在大约 5 TB 大小的表/视图上运行的简单查询。我们正在执行 ETL,最后通过添加分区将数据添加到核心表中。
但是由于我们正在处理的数据非常庞大,因此查询会产生 4000 多个映射器和 1000 多个减速器。查询也运行了 40 多分钟。
如何提高/减少资源利用率?
询问:
performance - 如何在 Hive 中的视图上运行查询?
我们正在视图上运行一个简单的选择(其中包含大量数据),我们得到“超出 GC 开销限制,内存不足错误。我们想要运行此查询,以便在此视图之上运行的报告可以工作。它在 Tez 上运行。
查询运行了 4 个多小时并失败。有什么方法可以运行这个查询,比如一些设置选项?
询问
错误信息 -
hadoop - hive.tez.container.size 和 tez.task.resource.memory.mb 的区别
有人知道并向我解释一下 Tez 的这些设置之间的区别吗?
hive.tez.container.size和tez.task.resource.memory.mb
谢谢。
hadoop - Hive Tez 减速器运行速度超慢
我加入了多个表,总行数约为 250 亿。最重要的是,我正在做聚合。这是我的配置单元设置,如下所示,我用它来生成最终输出。我不确定如何调整查询并使其运行得更快。目前,我正在反复试验,看看是否能产生一些结果,但这似乎不起作用。映射器运行得更快,但减速器需要永远完成。有人可以分享您对此的想法吗?谢谢你。
hive - 为什么 tez 上的 hive 有时运行速度是原来的两倍?
我已经用hive
on进行了一些实验tez
。我有一个查询,80% 的时间运行大约 45 秒,其余时间运行大约 24 秒。这种罕见的加速可以归因于什么?