amazon-ec2 - 运行依赖于 Numpy 的 Amazon Elastic Mapreduce 作业的方法是什么？

Question

我的 Mapreduce 作业的地图部分依赖于 Numpy。所以，这意味着我需要安装 numpy 作为引导操作的一部分。

我想做的是构建一个存储在 S3 上的自定义 Numpy 包，该包在 boostrap 操作期间被获取和安装。

有没有更好的办法？

score 1 · Accepted Answer

Numpy 现在安装在 Amazon Elastic MapReduce 实例上，但如果您想使用其他模块，您可以将它们压缩，使用 DistributedCache（使用“-cacheFile”）将它们分发给您的工作人员，然后使用 Python 的内置“zipimport”模块。

1 回答 1