有没有办法将整个文件发送到映射器而不被拆分?
我已经读过这个,但我想知道是否有另一种方法可以做同样的事情而不必生成中间文件。理想情况下,我想要 Hadoop 命令行上的现有选项。
我streaming
在 Amazon EMR 上使用带有 Python 脚本的工具。
有没有办法将整个文件发送到映射器而不被拆分?
我已经读过这个,但我想知道是否有另一种方法可以做同样的事情而不必生成中间文件。理想情况下,我想要 Hadoop 命令行上的现有选项。
我streaming
在 Amazon EMR 上使用带有 Python 脚本的工具。