使用 mrjob 在 Amazon 的 Elastic MapReduce 上运行 python 代码我已经成功地找到了升级 EMR 图像的 numpy 和 scipy 的方法。
从控制台运行以下命令有效:
tar -cvf py_bundle.tar mymain.py Utils.py numpy-1.6.1.tar.gz scipy-0.9.0.tar.gz
gzip py_bundle.tar
python my_mapper.py -r emr --python-archive py_bundle.tar.gz --bootstrap-python-package numpy-1.6.1.tar.gz --bootstrap-python-package scipy-0.9.0.tar.gz > output.txt
这成功地将最新的 numpy 和 scipy 引导到图像中并且完美运行。我的问题是速度问题。这需要 21 分钟才能在小型实例上自行安装。
有谁知道如何加快升级 numpy 和 scipy 的过程?