我有一个非常简单的用例......基本上我有一个边缘列表,我正在尝试将其转换为邻接列表.. 基本上
src target
a b
a c
b d
b e
等等..我想要建立的是
a [b,c]
b [d,e]
.. and so on..
但是时不时地……我遇到了一个超级节点……它有数百万条边……
因此,由于这个散乱的减速器,只键入节点 ID 会导致 MR 执行不佳。
我一直在尝试了解分区器..但是我迷失了如何在这里使用它?
我该如何解决这个落后的问题?谢谢