parallel-processing - 处理流以查询同一数据集时的高效 MapReduce

Question

我有一个庞大的静态数据集，并且我有一个函数可以应用于它。

f 的形式是 reduce(map(f, dataset))，所以我会使用 MapReduce 框架。但是，我不想在每个请求处分散数据（理想情况下，我想利用索引来加速 f）。有解决这种一般情况的 MapReduce 实现吗？

我已经查看了IterativeMapReduce，也许它可以完成这项工作，但似乎解决了一个稍微不同的情况，并且代码尚不可用。

score 0 · Accepted Answer

Hadoop 的 MapReduce（以及所有其他受 Google 启发的 map-reduce 框架）不会一直分散数据。

1 回答 1