0

有没有办法将整个文件发送到映射器而不被拆分?

我已经读过这个,但我想知道是否有另一种方法可以做同样的事情而不必生成中间文件。理想情况下,我想要 Hadoop 命令行上的现有选项。

streaming在 Amazon EMR 上使用带有 Python 脚本的工具。

4

1 回答 1

1

只需将配置属性设置mapred.min.split.size为巨大的(10G):

-D mapred.min.split.size=10737418240

或者使用不可拆分的编解码器 (Gzip) 压缩输入文件。使用 .gz 扩展名,TextInputFormat 将向isSplittable(FileSystem, Path)方法返回 false

于 2012-06-10T15:42:48.110 回答