6

我正在编写一个外部脚本,以通过我笔记本电脑上的 Python mrjob 模块(不在 Amazon Elastic Compute Cloud 或任何大型集群上)运行 mapreduce 作业。

我从mrjob 文档中阅读,我应该使用该文档MRJob.make_runner()从单独的 python 脚本运行 mapreduce 作业,如下所示。

mr_job = MRYourJob(args=['-r', 'emr'])
with mr_job.make_runner() as runner:
    ...

但是,如何指定要使用的输入文件?我想在与我的 mapreduce 脚本和其他运行 map reduce 的 python 脚本相同的目录中使用文件“datalines.txt”。此外,如何指定输出?

我在 mrjob 文档中找不到允许我指定这些参数的函数。

4

1 回答 1

5

入门指南建议从标准输入或命令行提供的文件中读取输入:

mr_job = MRYourJob(args=["datalines.txt"])
于 2012-09-24T16:52:42.133 回答