我是 mrjob 的新手,在 Amazon EMR 上运行作业时遇到问题。我将按顺序编写它们。
- 我可以在本地机器上运行 mrjob。但是,当我在 /home/ankit/.mrjob.conf 和 /etc/mrjob.conf 中有 mrjob.conf 时,该作业不会在我的本地计算机上执行。这就是我得到的。https://s3-ap-southeast-1.amazonaws.com/imagna.sample/local.txt
- 文档中“MR_CONF指定的位置”中的MRJOB_CONF是什么?
- 'base_tmp_directory' 有什么用?另外,我是否需要在开始作业之前在 S3 中上传输入数据,或者它会在开始执行时从我的本地计算机加载?
- 如果我使用一些库,如 numpy、scikit 等,我需要做一些引导吗?如果是,如何?
- 这就是我在 EMR https://s3-ap-southeast-1.amazonaws.com/imagna.sample/emr.txt上执行运行作业的命令时得到的
有什么解决办法吗?
非常感谢。