问题标签 [hive-query]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
58 浏览

sql - 检查表1中是否存在记录的优化方法。如果没有则检查表2,否则返回默认值

在采访中被问到:我有 2 张表,一张表有类似的记录ID, Name, addressid(pk)是从 1 到 10000000。

另一个表有从 10000001 到 20000000 的记录。

我必须检查表 1 或表 2 中是否存在特定 ID 并返回相应的结果。

因为表大小很大,所以必须想一个优化的方法来做到这一点。

0 投票
0 回答
32 浏览

hive - 使用 Hive 取消透视表

我正在研究如何在 Hive 中取消透视表并将未透视的副本存储到数据库中的新表中。例如,我有这样的原始表:

在此处输入图像描述

我需要将其转换为

在此处输入图像描述

并将其存储为新表。任何人都可以请建议如何在蜂巢中执行此操作。谢谢

0 投票
1 回答
57 浏览

hive - Hive 在分区上嵌套 SUM - 错误表达式不在 GROUP BY 键中

我试图在一个查询中获得累积总和。它在 SQL、PRESTO 等中运行良好,但在 HIVE 中却不行,这会引发错误消息。

店铺 物品 收入
仓库 101 1
仓库 101 2
仓库 101 5
仓库 102 1
仓库 102 3

预期输出:

店铺 物品 数量
仓库 101 8
仓库 102 12

错误 :

[代码:40000,SQL 状态:42000] 编译语句时出错:失败:SemanticException 无法将窗口调用分解为组。至少 1 个组必须仅依赖于输入列。还要检查循环依赖。潜在错误:org.apache.hadoop.hive.ql.parse.SemanticException: Line 1:24 Expression not in GROUP BY key 'revenue'

有什么建议么 ?

0 投票
1 回答
20 浏览

hive - 我想从分区表中找出人口第二多的国家

我正在使用以下查询:

并收到以下错误:

请帮助我。

0 投票
1 回答
184 浏览

sql - 从 HIVE 表中获取最新的分区

嗨,我对此很陌生。我有三列 INTEGER 格式的 YEAR、MONTH、DAY。

我想加载脚本并将 YEAR、MONTH、DAY 组合为单列并获取最大值。

我试过了,

通过这样做,我将得到 2020_5_21 的结果。但我应该使用分隔符并找到日期的最大值。

发生以下错误:连接器回复错误:SQL##f - SqlState:S1000,ErrorCode:35,ErrorMsg:[Cloudera][Hardy] (35) 来自服务器的错误:错误代码:'1' 错误消息:'编译时出错语句:失败:执行错误,从 org.apache.hadoop.hive.ql.exec.tez.TezTask' 返回代码 1。

我想在 WHERE 子句中使用结果。但我不知道声明。SQL 从 HIVE 中选择 *。abc.`abc1' 其中 ---- ;

请帮忙。

0 投票
0 回答
58 浏览

hive - Hive 更改表 orc_test 更改列名导致 NULL 值重命名为列

以下设置解决了镶木地板中的类似问题。
Set parquet.column.index.access= true ;
类似地尝试了兽人表,但列的结果为空。
orc.column.index.access=false
Orc table的解决方案是什么?

0 投票
0 回答
109 浏览

select - 失败并出现异常 java.io.IOException:java.lang.RuntimeException: 查询 hive orc 表时出现严重问题

我已经使用以下查询创建了一个 ORC 格式的配置单元表,并且我能够在集群 1 中查询相同的表。现在我已经使用 distcp 将底层 ORC 文件传输到不同的集群(集群 2),并且我已经创建了相同的表结构在集群 2 中。当我运行 msck 修复表时,它能够加载分区,但是当我查询它的失败并出现严重问题时。

在来自集群 1 的 distcp orc 文件之后,用于在集群 2 中创建表的查询:

执行 msck 修复:(成功)

当我查询表时,它失败并出现以下错误:

你能帮忙解释一下为什么会这样吗?两者都有相同的兽人文件。但是 cluster-1 我们在创建表后使用插入数据insert into,在 cluster-2 中我们传输文件并在其上创建表。

0 投票
1 回答
40 浏览

sql - 两个查询的 Hive 联合给出编译错误

我不确定以下配置单元查询有什么问题。但是,它抛出错误。

我可以单独运行此查询。但是,在运行时遇到问题union

错误

0 投票
1 回答
22 浏览

file - 行错误解析异常的配置单元查询错误

[training@localhost ~]$ cat emp90

0 投票
1 回答
34 浏览

hadoop - 选择最大查询返回 Apache Hive 中表中的所有行

我正在使用此查询查询我的数据

SELECT date_col,max(rate) FROM crypto group by date_col ;

我期待单行,但它返回表中的所有行。这个查询有什么错误?