问题标签 [hive-partitions]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

139 问题

0 投票

2 回答

3949 浏览

dataframe - 获取pyspark中的分区数

我从表中选择所有内容并使用 Pyspark 从表中创建一个数据框 (df)。其中划分为：

现在我想通过使用来获取分区数

但它返回一个比预期（18 个分区）大得多的数字（15642 个分区）：

在 hive 中显示分区命令：

知道为什么分区的数量如此庞大吗？以及如何按预期获得分区数（18）

dataframe pyspark rdd hive-partitions

2019-10-19T19:03:19.267

0 投票

1 回答

523 浏览

hadoop - 如何在动态 hdfs 目录上创建分区 hive 表

我很难让蜂巢发现在 HDFS 中创建的分区

这是HDFS中的目录结构

A,B,C,D 是列中的值type

当我使用以下语法创建配置单元表时

查询表时看不到任何记录。

但是当我在 HDFS 中创建目录时，如下所示

当我检查使用时，它可以工作并发现分区show partitions table_name

hive 中是否有一些配置能够将动态目录检测为分区？

hadoop hive create-table hive-partitions hiveddl

2019-10-25T11:40:49.530

0 投票

0 回答

30 浏览

azure - 如何使用 delta 目录在 hive 中创建分区和存储的外部表？

我通过合并许多文件在 HIVE 中创建了一个分区和桶表。由于某些原因，无法从 HIVE 访问该表，可能它的元数据丢失了，尽管数据与分区、增量目录和存储桶一起存在。

我在 HIVE 中创建了一个指向该目录的外部表，即 /hive/warehouse/database/table 并运行MSCK REPAIR TABLE命令。但我无法在该表上运行任何查询，它会给出以下错误：

该错误是由于分区文件夹中存在的增量目录造成的。那么，有没有办法修复表或其元数据，以便我可以使用数据而不是重做所有事情？

azure hive hdfs external-tables hive-partitions

2019-11-04T05:30:13.420

0 投票

2 回答

425 浏览

apache-spark - 多级分区表的 Spark (EMR) 分区修剪行为

如果我有一个使用多级分区创建的表，即由两列（州、市）组成，如下所示：

如果我运行这样的选择查询：

即在哪里使用了第二个分区列，它会扫描city=Houston分区state=Texas吗？我很确定这就是 Hive 的运作方式，但我很想确认 Spark 中的行为。此外，如果它在 EMR 的 Spark 中执行，行为会有什么不同吗？

apache-spark hive apache-spark-sql amazon-emr hive-partitions

2019-11-12T05:31:13.027

0 投票

1 回答

267 浏览

hive - 跨多个分区的 Hive 表重复数据删除

我正在尝试对可能跨分区重复的表进行去重复。例如

可以看出，除了作为分区列的“dt”之外，该表具有相似的列值。我想删除这样一个表，其中旧分区中的类似记录将被删除，而记录在最新分区中。例如，上表在重复数据删除后应如下表所示。

hive duplicates hiveql hive-partitions

2019-12-23T11:04:12.460

0 投票

1 回答

1122 浏览

performance - 从具有多个分区列的配置单元表中获取最新数据

我有一个具有以下结构的蜂巢表

此表每 15 分钟刷新一次，并按年/月/日/小时/分钟列进行分区。请在下面的分区上找到示例。

我只想从表中选择最新的分区数据。我尝试对这些分区列使用 max() 语句，但由于数据量很大，因此效率不高。请让我知道，如何使用 hive sql 以方便的方式获取数据。

performance hive hiveql partition hive-partitions

2020-01-10T01:58:26.703

0 投票

0 回答

189 浏览

sql - 使用 sub_date 动态从 hive 表中删除分区

我需要动态地从蜂巢表中删除，这就是我想要做的方式：

但是当我尝试以下

我收到此错误：

知道如何解决这个问题吗？当我这样尝试时，它工作正常：

但我想使用 sub_date 如上所示。Hive 是否支持将查询结果存储到变量中？

sql hive hive-partitions

2020-01-10T18:49:51.703

0 投票

1 回答

129 浏览

apache - 为什么需要在配置单元中为动态分区设置属性

我想知道 hive 动态分区中的一件事。在进行动态分区时，我们必须设置以下属性

没有这些属性，我们就无法进行动态分区。

我想知道为什么需要这些？谁能告诉我为什么我们需要设置这个属性。

apache hive hive-partitions hive-configuration

2020-02-04T12:16:22.100

0 投票

1 回答

117 浏览

hive - Hive 分区列

我们在 hive 中有 avro 分区表。当我们查询表时，分区列显示在最后。有什么方法可以首先显示分区列吗？

例如：select * from tablea

输出：

预期输出：

分区列 col1 col2

hive hiveql partition hive-partitions

2020-03-03T15:08:01.263

0 投票

1 回答

1817 浏览

hive - 如何从 hive 获取最新的分区数据

我需要从具有最新分区的配置单元中的表中获取所有记录。该表是由date,year,montheg 分区的(date=25,year=2020,month=3)，同样会有很多分区。

分区不是静态的，它会经常变化。我正在尝试处理获取查询中的最新分区。有人可以帮我写查询吗？

hive hiveql hadoop-streaming hive-partitions

2020-03-24T10:28:29.930

1 2 3 4 5 6 7 8 9 10