我的最终目标是将每个reducer 的orc 输出溢出到它自己的文件夹中,使几个外部表存储为orc。我正在尝试重现此http://hadooppathhome.logdown.com/posts/277986-using-multipleoutputs-with-orc-in-mapreduce,但它似乎不起作用。输出既不会拆分到文件夹,也不会生成正确的文件。
我已经用文本输出测试了 MultipleOutputs,用 context.write() 测试了 OrcNewOutputFormat,它就像一个魅力。有没有人对这个组合有任何运气?
Hive 是 0.14.0。Hadoop 2.6.0