问题标签 [hive-partitions]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
dataframe - 获取pyspark中的分区数
我从表中选择所有内容并使用 Pyspark 从表中创建一个数据框 (df)。其中划分为:
现在我想通过使用来获取分区数
但它返回一个比预期(18 个分区)大得多的数字(15642 个分区):
在 hive 中显示分区命令:
知道为什么分区的数量如此庞大吗?以及如何按预期获得分区数(18)
hadoop - 如何在动态 hdfs 目录上创建分区 hive 表
我很难让蜂巢发现在 HDFS 中创建的分区
这是HDFS中的目录结构
A,B,C,D 是列中的值type
当我使用以下语法创建配置单元表时
查询表时看不到任何记录。
但是当我在 HDFS 中创建目录时,如下所示
当我检查使用时,它可以工作并发现分区show partitions table_name
hive 中是否有一些配置能够将动态目录检测为分区?
azure - 如何使用 delta 目录在 hive 中创建分区和存储的外部表?
我通过合并许多文件在 HIVE 中创建了一个分区和桶表。由于某些原因,无法从 HIVE 访问该表,可能它的元数据丢失了,尽管数据与分区、增量目录和存储桶一起存在。
我在 HIVE 中创建了一个指向该目录的外部表,即 /hive/warehouse/database/table 并运行MSCK REPAIR TABLE命令。但我无法在该表上运行任何查询,它会给出以下错误:
该错误是由于分区文件夹中存在的增量目录造成的。那么,有没有办法修复表或其元数据,以便我可以使用数据而不是重做所有事情?
apache-spark - 多级分区表的 Spark (EMR) 分区修剪行为
如果我有一个使用多级分区创建的表,即由两列(州、市)组成,如下所示:
如果我运行这样的选择查询:
即在哪里使用了第二个分区列,它会扫描city=Houston
分区state=Texas
吗?我很确定这就是 Hive 的运作方式,但我很想确认 Spark 中的行为。此外,如果它在 EMR 的 Spark 中执行,行为会有什么不同吗?
hive - 跨多个分区的 Hive 表重复数据删除
我正在尝试对可能跨分区重复的表进行去重复。例如
可以看出,除了作为分区列的“dt”之外,该表具有相似的列值。我想删除这样一个表,其中旧分区中的类似记录将被删除,而记录在最新分区中。例如,上表在重复数据删除后应如下表所示。
performance - 从具有多个分区列的配置单元表中获取最新数据
我有一个具有以下结构的蜂巢表
此表每 15 分钟刷新一次,并按年/月/日/小时/分钟列进行分区。请在下面的分区上找到示例。
我只想从表中选择最新的分区数据。我尝试对这些分区列使用 max() 语句,但由于数据量很大,因此效率不高。请让我知道,如何使用 hive sql 以方便的方式获取数据。
sql - 使用 sub_date 动态从 hive 表中删除分区
我需要动态地从蜂巢表中删除,这就是我想要做的方式:
但是当我尝试以下
我收到此错误:
知道如何解决这个问题吗?当我这样尝试时,它工作正常:
但我想使用 sub_date 如上所示。Hive 是否支持将查询结果存储到变量中?
apache - 为什么需要在配置单元中为动态分区设置属性
我想知道 hive 动态分区中的一件事。在进行动态分区时,我们必须设置以下属性
没有这些属性,我们就无法进行动态分区。
我想知道为什么需要这些?谁能告诉我为什么我们需要设置这个属性。
hive - Hive 分区列
我们在 hive 中有 avro 分区表。当我们查询表时,分区列显示在最后。有什么方法可以首先显示分区列吗?
例如:select * from tablea
输出:
预期输出:
分区列 col1 col2