1

我的 Mapreduce 作业的地图部分依赖于 Numpy。所以,这意味着我需要安装 numpy 作为引导操作的一部分。

我想做的是构建一个存储在 S3 上的自定义 Numpy 包,该包在 boostrap 操作期间被获取和安装。

有没有更好的办法?

4

1 回答 1

1

Numpy 现在安装在 Amazon Elastic MapReduce 实例上,但如果您想使用其他模块,您可以将它们压缩,使用 DistributedCache(使用“-cacheFile”)将它们分发给您的工作人员,然后使用 Python 的内置“zipimport”模块。

见:http ://www.cloudera.com/blog/2008/11/sending-files-to-remote-task-nodes-with-hadoop-mapreduce/

于 2012-02-09T06:19:14.400 回答