0

我是 mrjob 的新手,在 Amazon EMR 上运行作业时遇到问题。我将按顺序编写它们。

  1. 我可以在本地机器上运行 mrjob。但是,当我在 /home/ankit/.mrjob.conf 和 /etc/mrjob.conf 中有 mrjob.conf 时,该作业不会在我的本地计算机上执行。这就是我得到的。https://s3-ap-southeast-1.amazonaws.com/imagna.sample/local.txt
  2. 文档中“MR_CONF指定的位置”中的MRJOB_CONF是什么?
  3. 'base_tmp_directory' 有什么用?另外,我是否需要在开始作业之前在 S3 中上传输入数据,或者它会在开始执行时从我的本地计算机加载?
  4. 如果我使用一些库,如 numpy、scikit 等,我需要做一些引导吗?如果是,如何?
  5. 这就是我在 EMR https://s3-ap-southeast-1.amazonaws.com/imagna.sample/emr.txt上执行运行作业的命令时得到的

有什么解决办法吗?

非常感谢。

4

1 回答 1

1
  1. 您的 URL 无效(我收到“拒绝访问”错误)。
  2. mrjob.conf是一个配置文件。它可以位于多个位置,请参阅http://pythonhosted.org/mrjob/configs-conf.html
  3. 您只需在命令行上指定输入文件的路径,就可以使用来自本地计算机的输入数据。MRJob 将为您将数据上传到 S3。如果您指定 s3://... URL,MRJob 将使用该 S3 路径中的数据。
  4. 要使用非标准包,请参阅http://pythonhosted.org/mrjob/writing-and-running.html#custom-python-packages
  5. 您的 URL 无效(我收到“拒绝访问”错误)。
于 2013-03-21T00:31:26.653 回答