问题标签 [mrjob]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 运行 python mrjob 字数统计示例时出错
我正在尝试使用mrjob运行示例字数地图减少任务。我收到以下错误:
python - 如何在 MRjob 中获取输入文件的名称
我正在使用 mrjob 编写地图功能。我的输入将来自 HDFS 目录中的文件。文件的名称包含文件中不存在的小而重要的信息。有没有办法(在 map 函数中)学习给定键值对的输入文件的名称?
我正在寻找与此 Java 代码等效的代码:
提前致谢!
python - 在 EMR 上的 MRJob 中导入模块
简单的问题:我有一个模块 headers.py,它定义了我在主 MRJob 脚本中需要的几个变量。我应该能够用
然后在我的 MRJob 脚本(MRMyJob)中,以下应该可以工作:
正确的?从 mrjob --help 页面:“--file=UPLOAD_FILES 将文件复制到此脚本的工作目录。您可以多次使用 --file。”
当我尝试导入它时,我仍然得到“没有名为标题的模块”。
python - mrjob:是否可以在 VPC 中运行作业流程?
我正在使用 mrjob 在 EMR 上运行一些 MapReduce 任务,并且我想在 VPC 中运行作业流。我查看了 mrjob 和 boto 的文档,似乎没有一个支持这一点。
有谁知道这是否可行?
mapreduce - 所有的 reducer 是如何得出一个答案的?
我开始使用 mrjob python 包学习 MapReduce。mrjob 文档列出了以下片段作为示例 MapReduce 脚本。
我了解该算法的一般工作原理,组合器(不需要运行)的作用,以及化简器如何在映射器和组合器的混洗和排序值上运行。
但是,我不明白减速器是如何得出单个值的。集群的不同节点上没有运行不同的reduce进程吗?如果分区器仅将某些经过洗牌的键值对发送到某些缩减器,这些缩减函数如何得出一个单一的答案?
我想我对如何将各种减速器的输出组合成一个答案感到困惑。
mapreduce - 我怎么不能索引到reduce的值列表中?
我正在通过 Python mrjob 模块在 Map Reduce 作业中使用映射器内组合。因为我编写了一个发出单对的 mapper_final 函数,所以我确信只有一个键值对被发送到我的 reducer。
但是,我的 reduce 函数出错了:
错误读取
为什么我不能索引occurrences
?该列表中应该只有一对,对吧?
mrjob - mrjob 任务可以输出集合吗?
我尝试从 mrjob 中的映射器输出 python 集。我相应地更改了组合器和减速器的函数签名。
但是,我收到此错误:
当我将集合更改为列表时,此错误消失。mrjob 中的映射器是否无法输出某些 python 类型?
python - 如何为 Python 中的跑步者指定输入文件?
我正在编写一个外部脚本,以通过我笔记本电脑上的 Python mrjob 模块(不在 Amazon Elastic Compute Cloud 或任何大型集群上)运行 mapreduce 作业。
我从mrjob 文档中阅读,我应该使用该文档MRJob.make_runner()
从单独的 python 脚本运行 mapreduce 作业,如下所示。
但是,如何指定要使用的输入文件?我想在与我的 mapreduce 脚本和其他运行 map reduce 的 python 脚本相同的目录中使用文件“datalines.txt”。此外,如何指定输出?
我在 mrjob 文档中找不到允许我指定这些参数的函数。
python - MRJob MR 分配给字典而不是产量?
我是 MRJob 和 MR 的新手,我想知道 MRJob MR 的传统字数 python 示例:
是否可以将word, sum(occurrences)
元组存储到字典中而不是产生它们,以便我以后可以访问它们?这样做的语法是什么?谢谢!
python - 带有 mrjob 的 Unicode 文件
我正在尝试使用 mrjob 运行基本字符计数。该文件是一个 unicode UTF-8 文本文档,其中包含中文字符等符号。当我运行字符计数时,我只得到返回的 ASCII 字符集中的符号计数。
据我了解,mrjob 使用字节文件,因此应该能够处理 unicode。知道如何进行这项工作吗?
字符计数代码:
示例文件:
任何想法如何汉字计数可以工作?谢谢!