1

在阅读hadoop in action book时,我遇到了几个关于减少连接的类,其中一些是DataJoinMapperBase、TaggedMapOutput、DataJoinReducerBase。

但是当我通过谷歌搜索 hadoop 上的连接概念时,它们都不是基于上述指定的类。相反,它们实现了自己的逻辑,并且许多基于 MultipleInputs。

现在我的问题是,在 hadoop 上连接的更好方法是什么?可以做些什么来获得更好的结果?对此有什么建议吗?

4

1 回答 1

0

你可以试试Pangool库,它让 reduce side join 变得非常容易。映射侧连接只是内存查找。

于 2013-08-22T08:22:20.340 回答