我目前正致力于在 MR-MPI(MPI 上的 MapReduce)上实现机器学习算法。而且我还试图了解其他 MapReduce 框架,尤其是 Hadoop,所以以下是我的基本问题(我是 MapReduce 框架的新手,如果我的问题没有意义,我表示歉意)。
问题:因为 MapReduce 可以在许多事物之上实现,例如并行文件系统 (GPFS)、HDFS、MPI 等。在映射步骤之后有一个整理操作,然后是一个归约操作。对于整理操作,我们需要跨节点进行一些数据移动。在这方面,我想知道 HDFS Vs GPFS Vs MPI 中的数据移动机制(节点之间)有什么区别。
如果您能给我一些很好的解释,我很感激,并且可以给我一些关于这些的很好的参考,这样我就可以了解更多的细节。
谢谢。