我有一些问题可能适用于 Map-Reduce 模型。我想尝试实现它们,但在这个阶段我不想麻烦安装像 Hadoop 或 Disco 这样的重量级系统。
是否有用于 map-reduce 的轻量级 Python 框架,它使用常规文件系统进行输入、临时文件和输出?
专门针对大数据的 Coursera 课程建议使用这些轻量级的 Python Map-Reduce 框架:
为了让您快速入门,请尝试以下示例:
https://github.com/michaelfairley/mincemeatpy/zipball/v0.1.2
(提示:本例中的 [服务器地址] 使用 localhost)
http://pythonhosted.org/mrjob/非常适合在本地机器上快速入门,基本上你只需要一个简单的:
点安装mrjob
http://jsmapreduce.com/ -- 浏览器内的 mapreduce;在 Python 或 Javascript 中;无需安装
查看Apache Spark。它是用 Java 编写的,但也有 Python API。您可以在您的机器上本地尝试它,然后,当您需要它时,您可以轻松地将您的计算分布到集群上。
MockMR - https://github.com/sjtrny/mockmr
它用于教育用途。当前不并行操作,但接受标准 Python 对象作为 IO。
所以这是很久以前问过的,但我在周末致力于 mapreduce 的完整实现:remap。
https://github.com/gtoonstra/remap
安装非常简单,依赖最少,如果一切顺利,您应该能够在 5 分钟内运行测试运行。
整个处理管道正常工作,但提交和监控作业仍在进行中。