问题标签 [hiveddl]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
csv - 在 HIVE 中使用 csv 文件将数据插入表中
我使用上面的命令创建了配置单元表。现在我想使用加载数据命令将以下行(在 CSV 文件中)加载到表中。加载数据命令显示状态正常,但我看不到该表中的数据。
hadoop - 使用 csv-serde 时自动选择分隔符
使用以下方法创建了一个表:
当我尝试上传以逗号分隔的文件时,它已正确上传。如果我将管道配置为数据的分隔符,这怎么可能?csv-Serde 是否有一些识别分隔符的“智能”方式?
hive - Cloudera Hue - 在 serde 属性规范中无法识别“WITH”“SERDEPROPERTIES”“(”附近的输入
我正在尝试创建此表:
但是我遇到了一个问题:
编译语句时出错:FAILED: ParseException line 14:2 cannot identify input near 'WITH' 'SERDEPROPERTIES' '(' in serde properties specification
我该如何解决?
谢谢!
sorting - Hive 中的排序表(ORC 文件格式)
我在确保使用 Hive 表中的排序数据时遇到了一些困难。(使用 ORC 文件格式)
DISTRIBUTE BY
我知道我们可以通过在 create DDL 中声明一个子句来影响从 Hive 表中读取数据的方式。
这意味着每次我对该表进行查询时,数据将trade_id
在各个映射器之间分发,然后对其进行排序。
我的问题是:
我不希望将数据拆分为N
文件(存储桶),因为体积不大,我会保留小文件。
但是,我确实想利用排序插入。
我真的需要CLUSTERED/SORT
在创建 DLL 语句中使用吗?或者 Hive/ORC 是否知道如何利用插入过程已经确保数据已排序的事实?
做类似的事情是否有意义:
hive - Hive - 使用“选择查询”和“分区依据”命令创建表语句
我想在 Hive 中创建一个分区表。我知道首先在“创建表...分区”命令的帮助下创建表结构,然后使用“插入表”命令将数据插入表中
但我想做的是将这两个命令组合成一个查询,如下所示,但它会引发错误。
Year 和 Month 都是 master_extract 表中的两个单独的列。
有没有办法实现这样的目标?
hive - 是否可以在包含数据的现有表上添加布隆过滤器?
我有一个以 ORC 格式存储的表,其中为 1 列定义了布隆过滤器。在创建表并填充数据后,是否可以为另一列添加过滤器(无需重新插入数据)?
hive - CREATE TABLE 不从磁盘加载数据
我有一堆镶木地板文件,我正在尝试使用以下查询将它们加载到配置单元中:
它会创建表,但不会在该位置加载数据。查询有问题吗?
hive - 在配置单元中使用分区列删除表命令
drop table
命令 inhive
也会删除分区吗?
我只是想知道,还是我们必须为此使用alter table table_name drop partition()
命令?
hive - 删除并覆盖配置单元中的外部表
我需要使用 SELECT 子句的输出在 hiveql 中创建一个外部表。每次运行 HiveQL 时,都应该删除并重新创建表。当我们删除一个外部表时,只有表结构被删除,而不是来自 HDFS 位置的数据文件。如何做到这一点?