问题标签 [hive-partitions]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
21815 浏览

hive - 如何将列添加到现有的配置单元分区表?

我用上面的查询改变了我的表。但是在检查数据后,我得到了两个额外列的 NULL。我没有得到数据。

截屏

0 投票
2 回答
3494 浏览

hive - 从 HDFS 中删除分区目录,它会反映在 hive 表中吗?

假设我创建了一个分区列为年、月和日的配置单元表,如果我从 hdfs 中删除分区,那么结果是否会反映在配置单元表中

0 投票
2 回答
377 浏览

hive - Hive 可以从不在 HDFS 上的外部位置加载数据吗?

我试图了解对于 Hive 中的外部表,我们可以在 HDFS 之外找到位置吗,我的意思是我想在 Google 存储位置(gs://bucket-name/table-分区)。

0 投票
1 回答
3873 浏览

hive - 使用一个文件在 Hive 中创建表

我正在使用以下命令在 Hive 中创建一个新表:

我的问题是,创建表后,它会为每个分区生成多个文件 - 而我只希望每个分区有一个文件。

如何在表格中定义它?谢谢!

0 投票
1 回答
4818 浏览

hive - 如何使用列的值范围对 Hive 表进行分区

我有一个带有 2 列的 Hive 表。员工 ID 和薪水。

数据如下所示。

我想根据薪资列创建分区。例如薪资范围为 10000 到 20000、20001 到 30000 的分区。

我如何做到这一点。

0 投票
4 回答
38070 浏览

hive - 如何在 hive 中一次删除所有分区?

蜂巢版本 1.1

我有一个配置单元外部表,如下所示:

现在要删除特定分区,我可以运行 ALTER 命令,如下所示

但是这个表有很多分区。

如何一次删除所有现有分区?我想一次删除所有现有分区?那可能吗?

0 投票
0 回答
328 浏览

hive - Hive describe 也将分区显示为列,但 describe formatted 不

已创建 Hive 表:

描述:

色调输出:

描述输出

描述格式:

色调输出:

描述格式的输出

为什么在 hive 表的列列表中显示分区列describedescribe formatted似乎正确显示它。

0 投票
2 回答
2706 浏览

hive - 我可以将数据从一个配置单元分区移动到同一张表的另一个分区吗

我的分区基于年/月/日。使用 SimpleDateFormat for week year 创建了一个错误的分区。使用日期格式的 YYYY 将日期 2017-31-12 的数据移至 2018-31-12。

所以我想要的是将我的数据从同一张表的分区 2018/12/31 移动到 2017/12/31 。我没有找到任何相关的文件来做同样的事情。

0 投票
1 回答
2382 浏览

sql - 使用一个插入语句在多个分区中插入数据

我有表 A 和表 B,其中 B 是使用名为 X 的字段的 A 的分区表。

当我想从A向B插入数据时,我通常执行如下语句:

现在我想要实现的是能够插入一个 X 的范围,比如说 x1、x2、x3 ......我怎样才能在一个语句中实现这一点?

0 投票
1 回答
593 浏览

pyspark - PySpark - 在分区中覆盖的数据

我看到一种情况,当将 pyspark 数据帧保存到具有多列分区的配置单元表时,它也会覆盖子分区中的数据。或者 - 可能我假设它是一个子分区。

我想将“月”列视为子分区。因此,当我将 df2 保存到同一个表时,我可以看到 4 条记录(在 hive 表中)而不是 2 条。

mode=append将工作。但是,如果年份和月份相同,我希望数据被覆盖。保存 pyspark 数据框时有没有办法做到这一点?