Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
在阅读hadoop in action book时,我遇到了几个关于减少连接的类,其中一些是DataJoinMapperBase、TaggedMapOutput、DataJoinReducerBase。
但是当我通过谷歌搜索 hadoop 上的连接概念时,它们都不是基于上述指定的类。相反,它们实现了自己的逻辑,并且许多基于 MultipleInputs。
现在我的问题是,在 hadoop 上连接的更好方法是什么?可以做些什么来获得更好的结果?对此有什么建议吗?
你可以试试Pangool库,它让 reduce side join 变得非常容易。映射侧连接只是内存查找。