hadoop - 如何在hadoop中处理掉队的reducer

Question

我有一个非常简单的用例......基本上我有一个边缘列表，我正在尝试将其转换为邻接列表.. 基本上

src target
a     b
a    c
b    d
b    e

等等..我想要建立的是

a [b,c]
b [d,e]
.. and so on..

但是时不时地……我遇到了一个超级节点……它有数百万条边……

因此，由于这个散乱的减速器，只键入节点 ID 会导致 MR 执行不佳。

我一直在尝试了解分区器..但是我迷失了如何在这里使用它？

我该如何解决这个落后的问题？谢谢

score 0 · Accepted Answer

我不明白你的目的是什么。你要生成一个单一的输出文件吗？或者你想加快速度？

如果要获取单个输出文件，则可以将减速器的数量设置为 1。

或者你可以使用 srcID 作为 key 和 targetID 作为 map 的 value，这样具有相同 srcID 的 kv 对可以组合在同一个 reducer 中。

1 回答 1