hive - 设置 parquet snappy 输出文件大小是 hive？

Question

我正在尝试在 dfs.block.size 边界上拆分由 hive INSERT OVERWRITE TABLE... 创建的 parquet/snappy 文件，因为当分区中的文件大于块大小时，impala 会发出警告。

impala 记录以下警告：

Parquet files should not be split into multiple hdfs-blocks. file=hdfs://<SERVER>/<PATH>/<PARTITION>/000000_0 (1 of 7 similar)

代码：

CREATE TABLE <TABLE_NAME>(<FILEDS>)
PARTITIONED BY (
    year SMALLINT,
    month TINYINT
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\037'
STORED AS PARQUET TBLPROPERTIES ("parquet.compression"="SNAPPY");

至于INSERThql 脚本：

SET dfs.block.size=134217728;
SET hive.exec.reducers.bytes.per.reducer=134217728;
SET hive.merge.mapfiles=true;
SET hive.merge.size.per.task=134217728;
SET hive.merge.smallfiles.avgsize=67108864;
SET hive.exec.compress.output=true;
SET mapred.max.split.size=134217728;
SET mapred.output.compression.type=BLOCK;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
INSERT OVERWRITE TABLE <TABLE_NAME>
PARTITION (year=<YEAR>, month=<MONTH>)
SELECT <FIELDS>
from <ANOTHER_TABLE> where year=<YEAR> and month=<MONTH>;

问题是文件没收无处不在：

partition 1: 1 file: size = 163.9 M 
partition 2: 2 file: size = 207.4 M, 128.0 M
partition 3: 3 file: size = 166.3 M, 153.5 M, 162.6 M
partition 4: 3 file: size = 151.4 M, 150.7 M, 45.2 M

无论dfs.block.size设置（和上述其他设置）增加到256M，512M或1G（对于不同的数据集），问题都是相同的。

有没有办法/设置来确保输出 parquet/snappy 文件的拆分刚好低于 hdfs 块大小？

score 3 · Accepted Answer

一旦文件增长到单个 HDFS 块的大小并启动新文件，就无法关闭文件。这与 HDFS 通常的工作方式背道而驰：文件跨越许多块。

正确的解决方案是 Impala 将其任务安排在本地块的位置，而不是抱怨文件跨越多个块。这是最近作为IMPALA-1881完成的，将在 Impala 2.3 中发布。

score 1 · Accepted Answer

您需要同时设置 parquet 块大小和 dfs 块大小：

SET dfs.block.size=134217728;  
SET parquet.block.size=134217728;

两者都需要设置为相同，因为您希望parquet 块适合hdfs块。

score 0 · Accepted Answer

在某些情况下，您可以通过设置您已经做过的 mapred.max.split.size （parquet 1.4.2+）来设置 parquet 块大小。您可以将其设置为低于 hdfs 块大小以增加并行度。Parquet 尽可能与 hdfs 块对齐：

https://github.com/Parquet/parquet-mr/pull/365

编辑 2015 年 11 月 16 日：根据 https://github.com/Parquet/parquet-mr/pull/365#issuecomment-157108975 ，这也可能是 Impala 2.3 中修复的 IMPALA-1881。

hive - 设置 parquet snappy 输出文件大小是 hive？

3 回答 3

Related

Reference