我正在尝试制作一个脚本,该脚本使用 Hadoop 流式仅映射作业通过 Unix 过滤器对 HDFS 文件进行管道传输。我不关心输入拆分,无论如何我的文件都是压缩的。我不关心键/值对,而且我有一段时间摆脱了 hadoop 想要粘贴在我的输出中的标签。我更喜欢输入和输出简单的原始二进制数据,但我可以接受 UTF-8 文本行或类似的行。
mapreduce.output.textoutputformat.separator
我已经尝试了and的各种设置stream.map.output.field.separator
,使用typedbytes等。选项卡不会消失。有任何想法吗?
如果有区别,我将 CDH 4.1 与 YARN (MRv2) 一起使用。