问题标签 [hiveddl]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
371 浏览

csv - 在 HIVE 中使用 csv 文件将数据插入表中

我使用上面的命令创建了配置单元表。现在我想使用加载数据命令将以下行(在 CSV 文件中)加载到表中。加载数据命令显示状态正常,但我看不到该表中的数据。

0 投票
1 回答
99 浏览

hadoop - 使用 csv-serde 时自动选择分隔符

使用以下方法创建了一个表:

当我尝试上传以逗号分隔的文件时,它已正确上传。如果我将管道配置为数据的分隔符,这怎么可能?csv-Serde 是否有一些识别分隔符的“智能”方式?

0 投票
1 回答
3608 浏览

hive - Cloudera Hue - 在 serde 属性规范中无法识别“WITH”“SERDEPROPERTIES”“(”附近的输入

我正在尝试创建此表:

但是我遇到了一个问题:

编译语句时出错:FAILED: ParseException line 14:2 cannot identify input near 'WITH' 'SERDEPROPERTIES' '(' in serde properties specification

我该如何解决?

谢谢!

0 投票
1 回答
1969 浏览

sorting - Hive 中的排序表(ORC 文件格式)

我在确保使用 Hive 表中的排序数据时遇到了一些困难。(使用 ORC 文件格式)

DISTRIBUTE BY我知道我们可以通过在 create DDL 中声明一个子句来影响从 Hive 表中读取数据的方式。

这意味着每次我对该表进行查询时,数据将trade_id在各个映射器之间分发,然后对其进行排序。

我的问题是:

我不希望将数据拆分为N文件(存储桶),因为体积不大,我会保留小文件。

但是,我确实想利用排序插入。

我真的需要CLUSTERED/SORT在创建 DLL 语句中使用吗?或者 Hive/ORC 是否知道如何利用插入过程已经确保数据已排序的事实?

做类似的事情是否有意义:

0 投票
2 回答
3655 浏览

hive - Hive - 使用“选择查询”和“分区依据”命令创建表语句

我想在 Hive 中创建一个分区表。我知道首先在“创建表...分区”命令的帮助下创建表结构,然后使用“插入表”命令将数据插入表中

但我想做的是将这两个命令组合成一个查询,如下所示,但它会引发错误。

Year 和 Month 都是 master_extract 表中的两个单独的列。

有没有办法实现这样的目标?

0 投票
1 回答
1225 浏览

csv - 将 csv 文件导入 Qubole

我正在使用 qubole 运行 presto 查询。

我需要将 csv 文件上传到我的查询中,但无法弄清楚如何执行此操作。

有人对这个有经验么?

有关更多详细信息,我在分析部分下。

在此处输入图像描述

在此处输入图像描述

这是我到目前为止基于@leftjoin 的回答所得到的——

然后我运行配置单元查询,它显示为[Empty]

这是我的 s3 存储桶的样子: 在此处输入图像描述

0 投票
1 回答
794 浏览

hive - 是否可以在包含数据的现有表上添加布隆过滤器?

我有一个以 ORC 格式存储的表,其中为 1 列定义了布隆过滤器。在创建表并填充数据后,是否可以为另一列添加过滤器(无需重新插入数据)?

0 投票
1 回答
44 浏览

hive - CREATE TABLE 不从磁盘加载数据

我有一堆镶木地板文件,我正在尝试使用以下查询将它们加载到配置单元中:

它会创建表,但不会在该位置加载数据。查询有问题吗?

0 投票
1 回答
81 浏览

hive - 在配置单元中使用分区列删除表命令

drop table命令 inhive也会删除分区吗?

我只是想知道,还是我们必须为此使用alter table table_name drop partition()命令?

0 投票
1 回答
2164 浏览

hive - 删除并覆盖配置单元中的外部表

我需要使用 SELECT 子句的输出在 hiveql 中创建一个外部表。每次运行 HiveQL 时,都应该删除并重新创建表。当我们删除一个外部表时,只有表结构被删除,而不是来自 HDFS 位置的数据文件。如何做到这一点?