hadoop - 用 PIG 处理小文件

Question

根据我的理解，Map/Reduce 更适用于大文件。（我理解它是由于拆分逻辑等），我们可以将文件作为值和文件名作为序列文件中的键并进行优化。

现在的问题是我正在使用 PIG 进行分析，我们有大约数千个文件，但所有文件都以 KB 为单位。正如我们所知，pig latin 被转换并作为 MR 作业运行，所以我怀疑 MR 作业由于文件小而效率低下。

有什么方法可以让我对处理 pig 的小文件进行一些控制？有没有开箱即用的解决方案？

score 2 · Accepted Answer

Pig具有将小文件组合成更大块的功能：http: //pig.apache.org/docs/r0.11.1/perf.html#combine-files

1 回答 1