我的 Mapreduce 作业的地图部分依赖于 Numpy。所以,这意味着我需要安装 numpy 作为引导操作的一部分。
我想做的是构建一个存储在 S3 上的自定义 Numpy 包,该包在 boostrap 操作期间被获取和安装。
有没有更好的办法?
我的 Mapreduce 作业的地图部分依赖于 Numpy。所以,这意味着我需要安装 numpy 作为引导操作的一部分。
我想做的是构建一个存储在 S3 上的自定义 Numpy 包,该包在 boostrap 操作期间被获取和安装。
有没有更好的办法?
Numpy 现在安装在 Amazon Elastic MapReduce 实例上,但如果您想使用其他模块,您可以将它们压缩,使用 DistributedCache(使用“-cacheFile”)将它们分发给您的工作人员,然后使用 Python 的内置“zipimport”模块。
见:http ://www.cloudera.com/blog/2008/11/sending-files-to-remote-task-nodes-with-hadoop-mapreduce/