hadoop - Hive 'alter table concatenate' 是如何工作的？
我有`n(large)`许多小型 orc 文件，我想将它们合并到`k(small)`许多大型 orc 文件中。

这是使用`alter table table_name concatenate`Hive 中的命令完成的。

我想了解 Hive 如何实现这一点。如果需要，我希望使用 Spark 来实现这一

Question

我有n(large)许多小型 orc 文件，我想将它们合并到k(small)许多大型 orc 文件中。

这是使用alter table table_name concatenateHive 中的命令完成的。

我想了解 Hive 如何实现这一点。如果需要，我希望使用 Spark 来实现这一点，并进行任何更改。

任何指针都会很棒。

score 3 · Accepted Answer

根据AlterTable/PartitionConcatenate：

如果表或分区包含很多小的 RCFiles 或 ORC 文件，那么上面的命令会将它们合并成更大的文件。在 RCFile 的情况下，合并发生在块级别，而对于 ORC 文件，合并发生在条带级别，从而避免了解压缩和解码数据的开销。

还有兽人条纹：

ORC 文件的主体由一系列条纹组成。条带很大（通常约为 200MB）并且彼此独立，并且通常由不同的任务处理。列存储格式的定义特征是每一列的数据是分开存储的，从文件中读取数据应该与读取的列数成正比。在 ORC 文件中，每一列都存储在多个流中，这些流在文件中彼此相邻存储。例如，一个整数列表示为两个流 PRESENT，如果值为非空，则使用一个流，每个值记录一个位，以及记录非空值的 DATA。如果条带中的所有列值都不为空，则从条带中省略 PRESENT 流。对于二进制数据，ORC 使用三个流 PRESENT、DATA 和 LENGTH，它存储每个值的长度。每种类型的详细信息将在以下小节中介绍。

为了在 Spark 中实现，您可以在 Spark Context 的帮助下使用SparkSQL ：

scala> val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

scala> sqlContext.sql("Your_hive_query_here")

score 1 · Accepted Answer

请注意，SparkSQL 有许多不受支持的 Hive SQL命令。

ALTER TABLE <tableIdentifier> [partitionSpec] CONCATENATE在该列表中，并且从 Spark 1、2 到 3。它可能会继续不受 Spark 的支持，直到 Hadoop 生态系统以 Spark 作为其默认引擎提供 Hive 的那一天，即使那样，它也可能会被弃用。

什么时候增加一个指针会给出一个与内存地址相反的随机数？

2 回答 2

hadoop - Hive 'alter table concatenate' 是如何工作的？我有n(large)许多小型 orc 文件，我想将它们合并到k(small)许多大型 orc 文件中。 这是使用alter table table_name concatenateHive 中的命令完成的。

什么时候增加一个指针会给出一个与内存地址相反的随机数？

2 回答 2

Related

Reference