我正在通过 mrjob/boto 模块向亚马逊的 EMR 发送代码。我有一些外部 python 依赖项(即 numpy、boto 等),目前必须下载 python 包的源代码,并将它们作为 tarball 发送到 mrjob.config 文件的“python_archives”字段中。
这使得依赖管理比我想要的更混乱,我想知道我是否可以以某种方式使用我用于我的 virtualenv 设置的相同 requirements.txt 文件来引导带有我的依赖项的 emr 实例。是否可以在 EMR 实例上设置 virtualenv 并执行以下操作:
pip install -r requirements.txt
就像我在当地一样?