0

是否可以将多个 Map-side join 链接在一起?对我来说这是不可能的,因为我们不能只使用 map 对值进行排序(而在 reduce 中我们可以使用辅助排序)。所以不可能为下一次连接提供排序值结果。是否有任何解决方案来对地图端连接结果值进行排序?或者任何链接多个地图侧连接的解决方案?现在我可以想到使用 map-reduce 作业对值进行排序。

4

2 回答 2

0

你可能想看看 Yahoo 的 Oozie 框架:

  1. http://incubator.apache.org/oozie/
  2. https://github.com/yahoo/oozie
于 2012-06-02T15:13:49.203 回答
0

如果您使用的是旧 api(mapred 包),请查看 CompositeInputFormat。甚至还有来自 Roberto Congiu 的博客文章,更详细地解释了如何使用它:

这确实要求您的数据集是预先排序和可能分区的

于 2012-06-02T13:22:12.750 回答