问题标签 [mrjob]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1030 浏览

python - 运行 python mrjob 字数统计示例时出错

我正在尝试使用mrjob运行示例字数地图减少任务。我收到以下错误:

0 投票
2 回答
6005 浏览

python - 如何在 MRjob 中获取输入文件的名称

我正在使用 mrjob 编写地图功能。我的输入将来自 HDFS 目录中的文件。文件的名称包含文件中不存在的小而重要的信息。有没有办法(在 map 函数中)学习给定键值对的输入文件的名称?

我正在寻找与此 Java 代码等效的代码:

提前致谢!

0 投票
1 回答
1124 浏览

python - 在 EMR 上的 MRJob 中导入模块

简单的问题:我有一个模块 headers.py,它定义了我在主 MRJob 脚本中需要的几个变量。我应该能够用

然后在我的 MRJob 脚本(MRMyJob)中,以下应该可以工作:

正确的?从 mrjob --help 页面:“--file=UPLOAD_FILES 将文件复制到此脚本的工作目录。您可以多次使用 --file。”

当我尝试导入它时,我仍然得到“没有名为标题的模块”。

0 投票
1 回答
583 浏览

python - mrjob:是否可以在 VPC 中运行作业流程?

我正在使用 mrjob 在 EMR 上运行一些 MapReduce 任务,并且我想在 VPC 中运行作业流。我查看了 mrjob 和 boto 的文档,似乎没有一个支持这一点。

有谁知道这是否可行?

0 投票
2 回答
363 浏览

mapreduce - 所有的 reducer 是如何得出一个答案的?

我开始使用 mrjob python 包学习 MapReduce。mrjob 文档列出了以下片段作为示例 MapReduce 脚本。

我了解该算法的一般工作原理,组合器(不需要运行)的作用,以及化简器如何在映射器和组合器的混洗和排序值上运行。

但是,我不明白减速器是如何得出单个值的。集群的不同节点上没有运行不同的reduce进程吗?如果分区器仅将某些经过洗牌的键值对发送到某些缩减器,这些缩减函数如何得出一个单一的答案?

我想我对如何将各种减速器的输出组合成一个答案感到困惑。

0 投票
1 回答
4467 浏览

mapreduce - 我怎么不能索引到reduce的值列表中?

我正在通过 Python mrjob 模块在 Map Reduce 作业中使用映射器内组合。因为我编写了一个发出单对的 mapper_final 函数,所以我确信只有一个键值对被发送到我的 reducer。

但是,我的 reduce 函数出错了:

错误读取

为什么我不能索引occurrences?该列表中应该只有一对,对吧?

0 投票
1 回答
1462 浏览

mrjob - mrjob 任务可以输出集合吗?

我尝试从 mrjob 中的映射器输出 python 集。我相应地更改了组合器和减速器的函数签名。

但是,我收到此错误:

当我将集合更改为列表时,此错误消失。mrjob 中的映射器是否无法输出某些 python 类型?

0 投票
1 回答
746 浏览

python - 如何为 Python 中的跑步者指定输入文件?

我正在编写一个外部脚本,以通过我笔记本电脑上的 Python mrjob 模块(不在 Amazon Elastic Compute Cloud 或任何大型集群上)运行 mapreduce 作业。

我从mrjob 文档中阅读,我应该使用该文档MRJob.make_runner()从单独的 python 脚本运行 mapreduce 作业,如下所示。

但是,如何指定要使用的输入文件?我想在与我的 mapreduce 脚本和其他运行 map reduce 的 python 脚本相同的目录中使用文件“datalines.txt”。此外,如何指定输出?

我在 mrjob 文档中找不到允许我指定这些参数的函数。

0 投票
2 回答
1812 浏览

python - MRJob MR 分配给字典而不是产量?

我是 MRJob 和 MR 的新手,我想知道 MRJob MR 的传统字数 python 示例:

是否可以将word, sum(occurrences)元组存储到字典中而不是产生它们,以便我以后可以访问它们?这样做的语法是什么?谢谢!

0 投票
1 回答
623 浏览

python - 带有 mrjob 的 Unicode 文件

我正在尝试使用 mrjob 运行基本字符计数。该文件是一个 unicode UTF-8 文本文档,其中包含中文字符等符号。当我运行字符计数时,我只得到返回的 ASCII 字符集中的符号计数。

据我了解,mrjob 使用字节文件,因此应该能够处理 unicode。知道如何进行这项工作吗?

字符计数代码:

示例文件:

任何想法如何汉字计数可以工作?谢谢!