0

我有一个庞大的静态数据集,并且我有一个函数可以应用于它。

f 的形式是 reduce(map(f, dataset)),所以我会使用 MapReduce 框架。但是,我不想在每个请求处分散数据(理想情况下,我想利用索引来加速 f)。有解决这种一般情况的 MapReduce 实现吗?

我已经查看了IterativeMapReduce,也许它可以完成这项工作,但似乎解决了一个稍微不同的情况,并且代码尚不可用。

4

1 回答 1

0

Hadoop 的 MapReduce(以及所有其他受 Google 启发的 map-reduce 框架)不会一直分散数据。

于 2010-02-07T05:40:07.300 回答