我有非常适合在 map-and-reduce 模型下运行的昂贵工作(长话短说,它是聚合之前通过一些耗时算法计算的几百个排名)。
我想并行化集群上的作业(不仅仅是多处理),并专注于 2 个实现:Celery和Disco。Celery 不支持开箱即用的朴素 map-and-reduce,虽然“map”部分很容易使用 TaskSets 完成,但如何有效地实现“reduce”部分?
(我对 disco 的问题是它不能在 Windows 上运行,而且我已经为程序的另一部分设置了 celery,因此为 map-reduce 运行另一个框架似乎相当不雅。)