问题标签 [mrjob]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

323 问题

0 投票

2 回答

1030 浏览

python - 运行 python mrjob 字数统计示例时出错

我正在尝试使用mrjob运行示例字数地图减少任务。我收到以下错误：

python mapreduce emr mrjob

2012-07-10T11:49:39.730

0 投票

2 回答

6005 浏览

python - 如何在 MRjob 中获取输入文件的名称

我正在使用 mrjob 编写地图功能。我的输入将来自 HDFS 目录中的文件。文件的名称包含文件中不存在的小而重要的信息。有没有办法（在 map 函数中）学习给定键值对的输入文件的名称？

我正在寻找与此 Java 代码等效的代码：

提前致谢！

python hadoop hadoop-streaming mrjob

2012-07-11T14:26:48.540

0 投票

1 回答

1124 浏览

python - 在 EMR 上的 MRJob 中导入模块

简单的问题：我有一个模块 headers.py，它定义了我在主 MRJob 脚本中需要的几个变量。我应该能够用

然后在我的 MRJob 脚本（MRMyJob）中，以下应该可以工作：

正确的？从 mrjob --help 页面：“--file=UPLOAD_FILES 将文件复制到此脚本的工作目录。您可以多次使用 --file。”

当我尝试导入它时，我仍然得到“没有名为标题的模块”。

python hadoop emr mrjob

2012-07-31T14:20:23.850

0 投票

1 回答

583 浏览

python - mrjob：是否可以在 VPC 中运行作业流程？

我正在使用 mrjob 在 EMR 上运行一些 MapReduce 任务，并且我想在 VPC 中运行作业流。我查看了 mrjob 和 boto 的文档，似乎没有一个支持这一点。

有谁知道这是否可行？

python amazon-web-services amazon-emr amazon-vpc mrjob

2012-09-01T03:29:44.240

0 投票

2 回答

363 浏览

mapreduce - 所有的 reducer 是如何得出一个答案的？

我开始使用 mrjob python 包学习 MapReduce。mrjob 文档列出了以下片段作为示例 MapReduce 脚本。

我了解该算法的一般工作原理，组合器（不需要运行）的作用，以及化简器如何在映射器和组合器的混洗和排序值上运行。

但是，我不明白减速器是如何得出单个值的。集群的不同节点上没有运行不同的reduce进程吗？如果分区器仅将某些经过洗牌的键值对发送到某些缩减器，这些缩减函数如何得出一个单一的答案？

我想我对如何将各种减速器的输出组合成一个答案感到困惑。

mapreduce mrjob

2012-09-17T14:22:20.777

0 投票

1 回答

4467 浏览

mapreduce - 我怎么不能索引到reduce的值列表中？

我正在通过 Python mrjob 模块在 Map Reduce 作业中使用映射器内组合。因为我编写了一个发出单对的 mapper_final 函数，所以我确信只有一个键值对被发送到我的 reducer。

但是，我的 reduce 函数出错了：

错误读取

为什么我不能索引occurrences？该列表中应该只有一对，对吧？

mapreduce mrjob

2012-09-23T20:43:41.963

0 投票

1 回答

1462 浏览

mrjob - mrjob 任务可以输出集合吗？

我尝试从 mrjob 中的映射器输出 python 集。我相应地更改了组合器和减速器的函数签名。

但是，我收到此错误：

当我将集合更改为列表时，此错误消失。mrjob 中的映射器是否无法输出某些 python 类型？

mrjob

2012-09-23T23:01:19.300

0 投票

1 回答

746 浏览

python - 如何为 Python 中的跑步者指定输入文件？

我正在编写一个外部脚本，以通过我笔记本电脑上的 Python mrjob 模块（不在 Amazon Elastic Compute Cloud 或任何大型集群上）运行 mapreduce 作业。

我从mrjob 文档中阅读，我应该使用该文档MRJob.make_runner()从单独的 python 脚本运行 mapreduce 作业，如下所示。

但是，如何指定要使用的输入文件？我想在与我的 mapreduce 脚本和其他运行 map reduce 的 python 脚本相同的目录中使用文件“datalines.txt”。此外，如何指定输出？

我在 mrjob 文档中找不到允许我指定这些参数的函数。

python mapreduce mrjob

2012-09-24T16:38:02.320

0 投票

2 回答

1812 浏览

python - MRJob MR 分配给字典而不是产量？

我是 MRJob 和 MR 的新手，我想知道 MRJob MR 的传统字数 python 示例：

是否可以将word, sum(occurrences)元组存储到字典中而不是产生它们，以便我以后可以访问它们？这样做的语法是什么？谢谢！

python dictionary mapreduce mrjob

2012-09-25T03:31:41.127

0 投票

1 回答

623 浏览

python - 带有 mrjob 的 Unicode 文件

我正在尝试使用 mrjob 运行基本字符计数。该文件是一个 unicode UTF-8 文本文档，其中包含中文字符等符号。当我运行字符计数时，我只得到返回的 ASCII 字符集中的符号计数。

据我了解，mrjob 使用字节文件，因此应该能够处理 unicode。知道如何进行这项工作吗？

字符计数代码：

示例文件：

任何想法如何汉字计数可以工作？谢谢！

python unicode mrjob

2012-12-05T22:50:35.810

1 2 3 4 5 6 7 8 9 10