0

我尝试了几个选项,但我只看到了将小文件合并到大文件的配置设置,如下所示,反之亦然。我正在寻找大小为 150kb 的文件。

set hive.merge.tezfiles=true;
set hive.merge.smallfiles.avgsize=128000;
set hive.merge.size.per.task=128000;
4

2 回答 2

0

您可以尝试设置 ORC 块大小hive.exec.orc.default.block.size。同样要跳过小文件的合并,您需要禁用标志。 set hive.merge.tezfiles=false;您可以参考Hortonworks 社区线程链接以获取有关如何生成文件的更多信息。

于 2017-09-15T03:03:57.633 回答
0

尝试以下设置,这些应该有助于保留小文件:

set hive.merge.tezfiles=true;
set hive.merge.smallfiles.avgsize=128000;
set hive.merge.size.per.task=128000;
set mapreduce.input.fileinputformat.split.minsize=100;
set mapreduce.input.fileinputformat.split.maxsize=128000;
set hive.exec.orc.default.block.size=128000;
于 2018-07-23T23:54:56.213 回答