1

我有一个非常简单的用例......基本上我有一个边缘列表,我正在尝试将其转换为邻接列表.. 基本上

src target
a     b
a    c
b    d
b    e

等等..我想要建立的是

a [b,c]
b [d,e]
.. and so on..

但是时不时地……我遇到了一个超级节点……它有数百万条边……

因此,由于这个散乱的减速器,只键入节点 ID 会导致 MR 执行不佳。

我一直在尝试了解分区器..但是我迷失了如何在这里使用它?

我该如何解决这个落后的问题?谢谢

4

1 回答 1

0

我不明白你的目的是什么。你要生成一个单一的输出文件吗?或者你想加快速度?

如果要获取单个输出文件,则可以将减速器的数量设置为 1。

或者你可以使用 srcID 作为 key 和 targetID 作为 map 的 value,这样具有相同 srcID 的 kv 对可以组合在同一个 reducer 中。

于 2013-12-16T15:04:19.700 回答