我正在阅读 Google 的 MapReduce 白皮书。而且我想知道如何将 GB 的数据有效地传递给 MapReduce 算法。该论文显示了在几秒钟内处理 TB 数据的统计数据。这篇论文说,为了使其高效工作,他们减少了网络调用并尝试在本地磁盘上进行本地写入。只有 reducer 函数执行远程调用并写入 olocal 输出文件。现在,当我们在内存中加载 GB 的数据并将其传递给 Map 函数时,数据加载器应用程序肯定会耗尽内存。
所以我的问题是应该使用什么技术来有效地加载数据并传递给调度程序应用程序以进行 M 和 R 调度,并计算 M 件和 R 件的数量。
我很可能会从 Oracle 数据库中读取一些数据并将其更新回其他一些表中。