4

简而言之,octopy 和 mincemeatpy 是 map-reduce(轻量级)的 python 实现,客户端可以以 ad-hoc 方式加入集群而无需任何安装(当然,python 除外)。这是项目详细信息OCTOPYMincemeatpy

这些问题是它们需要将整个数据保存在内存中(包括中间键值对)。因此,即使对于中等大小的数据,它们也会抛出内存不足异常。

我使用它们的主要原因是:

  1. Python。
  2. 无需集群安装。
  3. 我只是原型,一旦我准备好我就可以直接移植算法。

所以我的问题是:是否有任何包可以处理相同的东西,但不仅仅是内存(可以处理中等大小的数据)?

4

1 回答 1

3

尝试PyMapReduce。它在您自己的机器上运行,但在多个进程上运行 - 因此您不需要构建主节点架构,并且它有很多运行器,例如DiskBasedRunner,它似乎将地图数据存储到临时文件并在减少它们之后。

于 2012-12-20T12:16:02.093 回答