问题标签 [reducers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mapreduce - 映射器、减速器、过滤器
我知道 map/reduce 算法及其用途。它使用称为 Mappers 和 Reducers 的函数,但我也发现人们使用过滤器这个词。
过滤器与映射器相同还是有一些显着差异?
amazon-web-services - Amazon MapReduce 没有减速器作业
我正在尝试通过 AWS(流式作业)创建一个仅映射器的作业。reducer 字段是必需的,因此我提供了一个虚拟可执行文件,并将 -jobconf mapred.map.tasks=0 添加到 Extra Args 框中。在我安装的 hadoop 环境(0.20 版)中,不会启动减速器作业,但在 AWS 中,虚拟可执行文件会启动并失败。
如何在 AWS 中运行没有 reducer/mapper 的作业?
mapreduce - 如何找到每个地图任务的ID?
我想获取每个 mapper 和 reducer 任务的 id,因为我想根据 mapper 和 reducer id 标记这些 mapper 和 reducer 的输出。如何检索每个的 id?
谢谢
mapreduce - MapReduce 低效的减速器
除了 map 函数输出的所有键相同之外,什么会导致 MapReduce 作业中只有一个 reducer?
hadoop - Hadoop PIG 输出未使用 PARALLEL 运算符拆分为多个文件
看起来我错过了什么。我的数据上的 reducer 数量在 HDFS 中创建了那么多文件,但我的数据没有分成多个文件。我注意到的是,如果我group by
对按顺序排列的键执行 a 操作,它可以正常工作,就像下面的数据根据键很好地分成两个文件:
但是这个数据没有分裂:
我使用的代码适用于一个而不适用于另一个是
上面的代码创建了两个输出部分文件,但在第一个输入中,它很好地分割了数据并将 key 1
inpart-r-00000
和 key 2
in 放入part-r-00001
。但是对于第二个输入,它会创建两个部分文件,但所有数据都以part-r-00000
. 我缺少什么,我该怎么做才能根据唯一键将数据拆分为多个输出文件?
注意:对于第二个输入,如果我使用PARALLEL 3
(3 个减速器),它会创建三个部分文件并添加所有输入数据和输入文件1
的part-0
所有数据。我发现这种行为很奇怪。顺便说一句,我正在使用 Cloudera CDH3B4。3
part-3
variables - 将 reducers 输出目录路径保存到 Hadoop 中的变量
如何将 Hadoop 减速器的输出路径保存到变量中?
此变量将被所有其他 MR 作业使用。
这些作业将是连续的。
所有连续的 MR 作业都会将其相应的输出写入该输出目录。
我需要相应地更新他们的路径变量。
hadoop - Hadoop mapper emits a unique key. Can I perform reducer after per map?
My mapper emits 'uniq key' - 'very large value' pair.
My reducer doesn't know the key is unique. Thus, the reducer waits until all the mappers are completed.
I tried to use a combiner, but it is not an easy solution for me, because my reducer is very complicated.
My question is how can I perform the reducer after per map? without using a combiner.
java - 连接来自 SequenceFileOutputFormat 的 reducer 输出
我有一份工作,它使用了 100 个使用 setOutputFormat (SequenceFileOutputFormat.class) 配置的减速器;
作业运行后,我可以通过以下命令组合所有零件文件并让压缩正常工作吗?
hadoop fs -cat output/part* > fullOutput
如果不是,那么使用多个减速器但将它们的所有输出集中到一个文件中的首选方法是什么?
非常感谢,
- 艺术
memory - 为什么 EMR 实例没有映射器那么多的 reducer?
默认情况下,在 EMR 作业期间,实例配置为具有比映射器更少的 reducer。但是减速器没有得到任何额外的内存,所以看起来它们应该能够拥有相同的数量。(比如超大的高cpu实例有7个mapper,但只有2个reducer,但是mapper和reducer都配置了512MB的可用内存)。
有谁知道这是为什么,有什么方法可以指定使用与映射器一样多的减速器吗?
编辑:我的数量错误,它是 512 MB
hadoop - mapreduce 作业中的“Combiner”类
Combiner 在 Mapper 之后和 Reducer 之前运行,它将接收给定节点上 Mapper 实例发出的所有数据作为输入。然后向 Reducers 发出输出。
此外,如果 reduce 函数既可交换又可关联,那么它可以用作组合器。
我的问题是在这种情况下“交换和联想”这个词是什么意思?