问题标签 [hive-query]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql - 检查表1中是否存在记录的优化方法。如果没有则检查表2,否则返回默认值
在采访中被问到:我有 2 张表,一张表有类似的记录ID, Name, address
。id(pk)
是从 1 到 10000000。
另一个表有从 10000001 到 20000000 的记录。
我必须检查表 1 或表 2 中是否存在特定 ID 并返回相应的结果。
因为表大小很大,所以必须想一个优化的方法来做到这一点。
hive - Hive 在分区上嵌套 SUM - 错误表达式不在 GROUP BY 键中
我试图在一个查询中获得累积总和。它在 SQL、PRESTO 等中运行良好,但在 HIVE 中却不行,这会引发错误消息。
店铺 | 物品 | 收入 |
---|---|---|
仓库 | 101 | 1 |
仓库 | 101 | 2 |
仓库 | 101 | 5 |
仓库 | 102 | 1 |
仓库 | 102 | 3 |
预期输出:
店铺 | 物品 | 数量 |
---|---|---|
仓库 | 101 | 8 |
仓库 | 102 | 12 |
错误 :
[代码:40000,SQL 状态:42000] 编译语句时出错:失败:SemanticException 无法将窗口调用分解为组。至少 1 个组必须仅依赖于输入列。还要检查循环依赖。潜在错误:org.apache.hadoop.hive.ql.parse.SemanticException: Line 1:24 Expression not in GROUP BY key 'revenue'
有什么建议么 ?
hive - 我想从分区表中找出人口第二多的国家
我正在使用以下查询:
并收到以下错误:
请帮助我。
sql - 从 HIVE 表中获取最新的分区
嗨,我对此很陌生。我有三列 INTEGER 格式的 YEAR、MONTH、DAY。
我想加载脚本并将 YEAR、MONTH、DAY 组合为单列并获取最大值。
我试过了,
通过这样做,我将得到 2020_5_21 的结果。但我应该使用分隔符并找到日期的最大值。
发生以下错误:连接器回复错误:SQL##f - SqlState:S1000,ErrorCode:35,ErrorMsg:[Cloudera][Hardy] (35) 来自服务器的错误:错误代码:'1' 错误消息:'编译时出错语句:失败:执行错误,从 org.apache.hadoop.hive.ql.exec.tez.TezTask' 返回代码 1。
我想在 WHERE 子句中使用结果。但我不知道声明。SQL 从 HIVE 中选择 *。abc
.`abc1' 其中 ---- ;
请帮忙。
hive - Hive 更改表 orc_test 更改列名导致 NULL 值重命名为列
以下设置解决了镶木地板中的类似问题。
Set parquet.column.index.access= true ;
类似地尝试了兽人表,但列的结果为空。
orc.column.index.access=false
Orc table的解决方案是什么?
select - 失败并出现异常 java.io.IOException:java.lang.RuntimeException: 查询 hive orc 表时出现严重问题
我已经使用以下查询创建了一个 ORC 格式的配置单元表,并且我能够在集群 1 中查询相同的表。现在我已经使用 distcp 将底层 ORC 文件传输到不同的集群(集群 2),并且我已经创建了相同的表结构在集群 2 中。当我运行 msck 修复表时,它能够加载分区,但是当我查询它的失败并出现严重问题时。
在来自集群 1 的 distcp orc 文件之后,用于在集群 2 中创建表的查询:
执行 msck 修复:(成功)
当我查询表时,它失败并出现以下错误:
你能帮忙解释一下为什么会这样吗?两者都有相同的兽人文件。但是 cluster-1 我们在创建表后使用插入数据insert into
,在 cluster-2 中我们传输文件并在其上创建表。
sql - 两个查询的 Hive 联合给出编译错误
我不确定以下配置单元查询有什么问题。但是,它抛出错误。
我可以单独运行此查询。但是,在运行时遇到问题union
错误
file - 行错误解析异常的配置单元查询错误
[training@localhost ~]$ cat emp90
hadoop - 选择最大查询返回 Apache Hive 中表中的所有行
我正在使用此查询查询我的数据
SELECT date_col,max(rate) FROM crypto group by date_col ;
我期待单行,但它返回表中的所有行。这个查询有什么错误?