我需要添加第三个阶段——合并——它结合了单独的、并行的 Reduce 任务的输出。这使得执行连接和构建笛卡尔积之类的事情成为可能。有人可以帮我怎么做吗?我检查了没有Hadoop 0.21 API 支持他的功能。
问问题
101 次
1 回答
1
Hadoop 是一个 MapReduce(不是 MapReduceMerge!)框架,这不太可能改变。也就是说,您可以提交 Jira 或在http://getsatisfaction.com/cloudera/上询问以获得官方立场。
如果你需要加入,你应该尝试 Pig(我唯一有实践经验的,但还有其他的 - Hive,......)。Pig 使连接变得非常简单。
于 2011-06-07T18:46:28.200 回答