有没有办法控制 Hadoop Streaming 作业的输出文件名?具体来说,我希望我的工作的输出文件内容和名称由减速器输出的 ket 组织 - 每个文件只包含一个键的值,它的名称就是键。
更新:刚刚找到答案 - 使用从 MultipleOutputFormat 派生的 Java 类作为作业输出格式允许控制输出文件名。 http://hadoop.apache.org/core/docs/current/api/org/apache/hadoop/mapred/lib/MultipleOutputFormat.html
我还没有看到任何示例...任何人都可以指出使用自定义输出格式 Java 类的 Hadoop Streaming 示例吗?