我有一个庞大的静态数据集,并且我有一个函数可以应用于它。
f 的形式是 reduce(map(f, dataset)),所以我会使用 MapReduce 框架。但是,我不想在每个请求处分散数据(理想情况下,我想利用索引来加速 f)。有解决这种一般情况的 MapReduce 实现吗?
我已经查看了IterativeMapReduce,也许它可以完成这项工作,但似乎解决了一个稍微不同的情况,并且代码尚不可用。
我有一个庞大的静态数据集,并且我有一个函数可以应用于它。
f 的形式是 reduce(map(f, dataset)),所以我会使用 MapReduce 框架。但是,我不想在每个请求处分散数据(理想情况下,我想利用索引来加速 f)。有解决这种一般情况的 MapReduce 实现吗?
我已经查看了IterativeMapReduce,也许它可以完成这项工作,但似乎解决了一个稍微不同的情况,并且代码尚不可用。