如何使用 Map Reduce 连接两个记录集?大多数解决方案(包括发布在 SO 上的解决方案)都建议我根据公共键发出记录,并在 reducer 中将它们添加到 HashMap 中,然后采用叉积。(例如,在 Mapreduce/Hadoop 中加入两个数据集)
这个解决方案非常好,适用于大多数情况,但就我而言,我的问题完全不同。我正在处理一个拥有数十亿条记录的数据,并且不可能对两组进行叉积,因为在许多情况下,哈希图最终将拥有几百万个对象。所以我遇到了堆空间错误。
我需要一个更有效的解决方案。MR 的重点是处理大量数据,我想知道是否有任何解决方案可以帮助我避免这个问题。