我使用 mrjob 创建了一个 Amazon EMR 作业。我的 mapreduce 作业继承自一个公共帮助程序类,以使我更容易解析我正在解析的 apache 日志,我继承的类在多个 mapreduce 作业之间共享,所以这是我的文件结构:
__init__.py
count_ip.py (mapreduce job)
common/apache.py (base class count_ip.py inherits from)
我想从本地机器自动 tar 完整的 src 目录,并让 mrjob 将其上传到 Amazon EMR。现在我有一个带有公共目录的 tar 文件 common.tar.gz 。这个tar我在mrjob.conf中添加到我的python包中,它工作正常,我想做的是自动创建common.tar.gz,是否支持mrjob来处理这个,如果没有,我有什么选择?