目前正在 Disco 上实施 PageRank。作为一种迭代算法,一次迭代的结果被用作下一次迭代的输入。
我有一个代表所有链接的大文件,每一行代表一个页面,行中的值代表它链接到的页面。
对于 Disco,我将这个文件分成 N 个块,然后运行 MapReduce 一轮。结果,我得到了一组 (page, rank) 元组。
我想将此排名提供给下一次迭代。但是,现在我的映射器需要两个输入:图形文件和页面排名。
- 我想将图形文件和页面排名“压缩”在一起,这样每一行代表一个页面,它是排名,它是链接。
- 由于这个图形文件被分成 N 个块,我需要将 pagerank 向量拆分为 N 个并行块,并将 pagerank 向量的区域压缩到图形块
这一切似乎都比必要的复杂,并且作为一个非常简单的操作(使用典型的 mapreduce 算法),我似乎错过了一些关于 Disco 可以真正简化方法的东西。
有什么想法吗?