我正试图解决使用 MapReduce 实现 PageRank 的理论的问题。
我有以下三个节点的简单场景:AB C。
邻接矩阵在这里:
A { B, C }
B { A }
例如,B 的 PageRank 等于:
(1-d)/N + d ( PR(A) / C(A) )
N = number of incoming links to B
PR(A) = PageRank of incoming link A
C(A) = number of outgoing links from page A
我对所有原理图以及映射器和减速器的工作方式都很好,但我无法弄清楚在减速器计算时如何知道 C(A)。在通过聚合到 B 的传入链接来计算 B 的 PageRank 时,reducer 将如何知道每个页面的传出链接数。这是否需要在某些外部数据源中查找?