问题标签 [hive-partitions]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
3949 浏览

dataframe - 获取pyspark中的分区数

我从表中选择所有内容并使用 Pyspark 从表中创建一个数据框 (df)。其中划分为:

现在我想通过使用来获取分区数

但它返回一个比预期(18 个分区)大得多的数字(15642 个分区):

在 hive 中显示分区命令:

知道为什么分区的数量如此庞大吗?以及如何按预期获得分区数(18)

0 投票
1 回答
523 浏览

hadoop - 如何在动态 hdfs 目录上创建分区 hive 表

我很难让蜂巢发现在 HDFS 中创建的分区

这是HDFS中的目录结构

A,B,C,D 是列中的值type

当我使用以下语法创建配置单元表时

查询表时看不到任何记录。

但是当我在 HDFS 中创建目录时,如下所示

当我检查使用时,它可以工作并发现分区show partitions table_name

hive 中是否有一些配置能够将动态目录检测为分区?

0 投票
0 回答
30 浏览

azure - 如何使用 delta 目录在 hive 中创建分区和存储的外部表?

我通过合并许多文件在 HIVE 中创建了一个分区和桶表。由于某些原因,无法从 HIVE 访问该表,可能它的元数据丢失了,尽管数据与分区、增量目录和存储桶一起存在。

我在 HIVE 中创建了一个指向该目录的外部表,即 /hive/warehouse/database/table 并运行MSCK REPAIR TABLE命令。但我无法在该表上运行任何查询,它会给出以下错误:

该错误是由于分区文件夹中存在的增量目录造成的。那么,有没有办法修复表或其元数据,以便我可以使用数据而不是重做所有事情?

0 投票
2 回答
425 浏览

apache-spark - 多级分区表的 Spark (EMR) 分区修剪行为

如果我有一个使用多级分区创建的表,即由两列(州、市)组成,如下所示:

如果我运行这样的选择查询:

即在哪里使用了第二个分区列,它会扫描city=Houston分区state=Texas吗?我很确定这就是 Hive 的运作方式,但我很想确认 Spark 中的行为。此外,如果它在 EMR 的 Spark 中执行,行为会有什么不同吗?

0 投票
1 回答
267 浏览

hive - 跨多个分区的 Hive 表重复数据删除

我正在尝试对可能跨分区重复的表进行去重复。例如

可以看出,除了作为分区列的“dt”之外,该表具有相似的列值。我想删除这样一个表,其中旧分区中的类似记录将被删除,而记录在最新分区中。例如,上表在重复数据删除后应如下表所示。

0 投票
1 回答
1122 浏览

performance - 从具有多个分区列的配置单元表中获取最新数据

我有一个具有以下结构的蜂巢表

此表每 15 分钟刷新一次,并按年/月/日/小时/分钟列进行分区。请在下面的分区上找到示例。

我只想从表中选择最新的分区数据。我尝试对这些分区列使用 max() 语句,但由于数据量很大,因此效率不高。请让我知道,如何使用 hive sql 以方便的方式获取数据。

0 投票
0 回答
189 浏览

sql - 使用 sub_date 动态从 hive 表中删除分区

我需要动态地从蜂巢表中删除,这就是我想要做的方式:

但是当我尝试以下

我收到此错误:

知道如何解决这个问题吗?当我这样尝试时,它工作正常:

但我想使用 sub_date 如上所示。Hive 是否支持将查询结果存储到变量中?

0 投票
1 回答
129 浏览

apache - 为什么需要在配置单元中为动态分区设置属性

我想知道 hive 动态分区中的一件事。在进行动态分区时,我们必须设置以下属性

没有这些属性,我们就无法进行动态分区。

我想知道为什么需要这些?谁能告诉我为什么我们需要设置这个属性。

0 投票
1 回答
117 浏览

hive - Hive 分区列

我们在 hive 中有 avro 分区表。当我们查询表时,分区列显示在最后。有什么方法可以首先显示分区列吗?

例如:select * from tablea

输出:

预期输出:

分区列 col1 col2

0 投票
1 回答
1817 浏览

hive - 如何从 hive 获取最新的分区数据

我需要从具有最新分区的配置单元中的表中获取所有记录。该表是由date,year,montheg 分区的(date=25,year=2020,month=3),同样会有很多分区。

分区不是静态的,它会经常变化。我正在尝试处理获取查询中的最新分区。有人可以帮我写查询吗?

在此处输入图像描述