问题标签 [combiners]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
624 浏览

mapreduce - HBase MapReduce 是否支持组合器阶段?如果是这样,怎么办?

Hadoop map reduce 支持组合器阶段。但是,我在 HBase MapReduce 包中找不到类似的功能。它存在吗?

0 投票
3 回答
1216 浏览

hadoop - Hadoop mapper emits a unique key. Can I perform reducer after per map?

My mapper emits 'uniq key' - 'very large value' pair.

My reducer doesn't know the key is unique. Thus, the reducer waits until all the mappers are completed.

I tried to use a combiner, but it is not an easy solution for me, because my reducer is very complicated.

My question is how can I perform the reducer after per map? without using a combiner.

0 投票
2 回答
2770 浏览

hadoop - Hadoop 操作顺序

根据在雅虎的hadoop教程上找到的附图,操作的顺序是map > combine > partition,应该遵循reduce

这是我的 map 操作发出的示例键

假设有 100 个相同类型的键,这应该组合为

然后我想按第一个管道(|) http://hadoop.apache.org/common/docs/r0.20.2/streaming.html#A+Useful+Partitioner+Class+%28secondary之前的值对键进行分区+sort%2C+the+-partitioner+org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner+option%29

所以这是我的流媒体命令

这是我得到的错误

我看起来partitionercombiner之前运行。有什么想法吗?

0 投票
1 回答
371 浏览

hadoop - 是否可以在 Amazon Elastic MapReduce 工作流程中添加“组合”步骤?

我指的是 Hadoop wiki 上提到的组合步骤。我无法在 AWS 文档中找到对它的引用,我想利用此步骤。

0 投票
4 回答
7628 浏览

hadoop - Hadoop组合器排序阶段

使用指定组合器运行 MapReduce 作业时,组合器是否在排序阶段运行?我知道组合器在每次溢出的映射器输出上运行,但似乎在合并排序的中间步骤期间运行也是有益的。我在这里假设在排序的某些阶段,某些等效键的映射器输出在某个时刻保存在内存中。

如果目前没有发生这种情况,是否有特殊原因,或者只是没有实施?

提前致谢!

0 投票
1 回答
968 浏览

hadoop - 用于 hadoop 流的组合器破解

当前版本的 hadoop-streaming 需要一个用于组合器的 Java 类,但我在某处读到我们可以使用如下 hack:

但是,这似乎不起作用。我究竟做错了什么?

0 投票
1 回答
371 浏览

hadoop - MapReduce 要求所有映射器在组合阶段之前完成

我最近不得不运行一项作业,要求所有映射器在将结果传递到组合阶段之前完成(由于处理文件的结构方式)。通过配置以下内容, reducer可以使用此功能-

我找不到组合阶段的任何类似配置。最终,我将我的工作分成了 2 个部分,组合阶段充当减速器,而我原来的 reduce 传递给了工作 #2(mapper2 只是传递数据而无需修改它)。

我想知道 - 有没有一种我错过了在合并之前配置 100% 地图完成的方法?谢谢。

0 投票
2 回答
1603 浏览

java - Hadoop Combiner Class for Text

I'm still trying to get an intuition as to when to use the Hadoop combiner class (I saw a few articles but they did not specifically help in my situation).

My question is, is it appropriate to use a combiner class when the value of the pair is of the Text class? For instance, let's say we have the following output from the mapper:

Can we apply a combiner class here to be:

before it even reaches the reducer?

0 投票
2 回答
11106 浏览

hadoop - mapreduce 作业中的“Combiner”类

Combiner 在 Mapper 之后和 Reducer 之前运行,它将接收给定节点上 Mapper 实例发出的所有数据作为输入。然后向 Reducers 发出输出。

此外,如果 reduce 函数既可交换又可关联,那么它可以用作组合器。

我的问题是在这种情况下“交换和联想”这个词是什么意思?

0 投票
2 回答
2002 浏览

hadoop - 部分聚合与组合器哪个更快?

有关于级联/烫伤如何优化地图侧评估的通知 他们使用所谓的部分聚合。它实际上是比组合器更好的方法吗?一些常见的hadoop任务(例如字数)是否有任何性能比较?如果是这样,hadoop 将来会支持这个吗?