11

我有一些问题可能适用于 Map-Reduce 模型。我想尝试实现它们,但在这个阶段我不想麻烦安装像 Hadoop 或 Disco 这样的重量级系统。

是否有用于 map-reduce 的轻量级 Python 框架,它使用常规文件系统进行输入、临时文件和输出?

4

6 回答 6

11

专门针对大数据的 Coursera 课程建议使用这些轻量级的 Python Map-Reduce 框架:

为了让您快速入门,请尝试以下示例:

https://github.com/michaelfairley/mincemeatpy/zipball/v0.1.2

(提示:本例中的 [服务器地址] 使用 localhost)

于 2013-04-24T08:29:49.783 回答
6

http://pythonhosted.org/mrjob/非常适合在本地机器上快速入门,基本上你只需要一个简单的:

点安装mrjob

于 2013-11-27T22:33:08.210 回答
3

http://jsmapreduce.com/ -- 浏览器内的 mapreduce;在 Python 或 Javascript 中;无需安装

于 2014-02-08T20:54:44.410 回答
1

查看Apache Spark。它是用 Java 编写的,但也有 Python API。您可以在您的机器上本地尝试它,然后,当您需要它时,您可以轻松地将您的计算分布到集群上。

于 2014-02-10T18:35:12.863 回答
1

MockMR - https://github.com/sjtrny/mockmr

它用于教育用途。当前不并行操作,但接受标准 Python 对象作为 IO。

于 2018-06-04T05:09:08.303 回答
0

所以这是很久以前问过的,但我在周末致力于 mapreduce 的完整实现:​​remap。

https://github.com/gtoonstra/remap

安装非常简单,依赖最少,如果一切顺利,您应该能够在 5 分钟内运行测试运行。

整个处理管道正常工作,但提交和监控作业仍在进行中。

于 2015-06-25T11:00:42.660 回答