上一个问题解决了如何为 hadoop 流导入诸如 nltk 之类的模块。
概述的步骤是:
zip -r nltkandyaml.zip nltk yaml
mv ntlkandyaml.zip /path/to/where/your/mapper/will/be/nltkandyaml.mod
您现在可以导入 nltk 模块以在 Python 脚本中使用:import zipimport
importer = zipimport.zipimporter('nltkandyaml.mod')
yaml = importer.load_module('yaml')
nltk = importer.load_module('nltk')
我有一份工作要在Amazon 的 EMR上运行,但我不确定将压缩文件放在哪里。我是否需要在引导选项下创建引导脚本,还是应该将 tar.gz 放在 S3 中,然后放在额外的 args 中?我对这一切都很陌生,如果能提供一个可以引导我完成整个过程的答案,我将不胜感激。