有人指出我正确的方向。我正在寻找对一些非常大且通常非常稀疏的矩阵进行一些繁重的操作,并且我正在寻找合适的工具来完成这项工作。这些矩阵将比任何一台机器的 RAM 大得多,因此可能会分布到几台不同的机器上。矩阵通常是稀疏的。我将想要执行所有常见的矩阵运算:乘法、转置、逆、伪逆、SVD、特征值分解等。我担心的关键可能是由于矩阵很可能会分布在多台机器上,我会想要最小化信息共享,因为网络延迟可能是我最大的敌人。我担心 map-reduce (a la Hadoop) 不是正确的选择,因为它'这本书从算法的角度对 map-reduce 进行了很好的介绍。并且许多矩阵运算类似于巨型 JOIN 运算,已知它们很慢或 map-reduce。
那么……我应该去哪里?