Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
是否可以将多个 Map-side join 链接在一起?对我来说这是不可能的,因为我们不能只使用 map 对值进行排序(而在 reduce 中我们可以使用辅助排序)。所以不可能为下一次连接提供排序值结果。是否有任何解决方案来对地图端连接结果值进行排序?或者任何链接多个地图侧连接的解决方案?现在我可以想到使用 map-reduce 作业对值进行排序。
你可能想看看 Yahoo 的 Oozie 框架:
如果您使用的是旧 api(mapred 包),请查看 CompositeInputFormat。甚至还有来自 Roberto Congiu 的博客文章,更详细地解释了如何使用它:
这确实要求您的数据集是预先排序和可能分区的