0

根据我的理解,Map/Reduce 更适用于大文件。(我理解它是由于拆分逻辑等),我们可以将文件作为值和文件名作为序列文件中的键并进行优化。

现在的问题是我正在使用 PIG 进行分析,我们有大约数千个文件,但所有文件都以 KB 为单位。正如我们所知,pig latin 被转换并作为 MR 作业运行,所以我怀疑 MR 作业由于文件小而效率低下。

有什么方法可以让我对处理 pig 的小文件进行一些控制?有没有开箱即用的解决方案?

4

1 回答 1

2

Pig具有将小文件组合成更大块的功能:http: //pig.apache.org/docs/r0.11.1/perf.html#combine-files

于 2013-09-04T17:25:40.927 回答