2

我打算在 ~100GB 文件上使用 mincemeat.py 来完成我的 map reduce 任务。在看到 mincemeat 的示例代码后,我似乎需要输入一个内存字典作为数据源。那么,提供我的大文件作为肉馅数据源的正确方法是什么?

肉糜链接:https ://github.com/michaelfairley/mincemeatpy

4

1 回答 1

0

查看示例和概念,我会认为理想情况下您会:

  1. 为数据源生成一个迭代器,
  2. 将文件溢出到多个服务器上的一些非常大的文件中,然后
  3. 合并结果。
于 2013-07-29T09:37:24.663 回答