问题标签 [combiners]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 为什么我的部分数据直接进入reducer而不进入combiner
我正在使用 0.20.0 版的 hadoop。
我已经成功设置了组合器类。我的程序运行成功。
但是,我发现我的数据中有大约 5% 的数据从 mapper 出来后没有进入 combiner,这些数据直接进入了 reducer。我不知道为什么?
hadoop - Mapreduce 工作:没有 reducer 的组合器
我注意到如果我将 reducer 的数量设置为 0,combiner 将无法工作。可以在没有减速器的情况下使用组合器吗?谢谢。
hadoop - 具有聚合器功能的 Hadoop 组合器
当使用聚合器函数之一代替减速器时,Hadoop 是否足够聪明,可以在合并器阶段使用相同的函数?
mongodb - Mongo DB 的 map reduce 框架中是否有组合器阶段
Mongo DB的map reduce框架中是否有任何类似于Combiner(如Hadoop Map Reduce)的东西。我们正在 Mongo DB 集群中尝试 map reduce 框架,并且有几行用于一个键,在发送到 reduce 阶段之前可能会组合这些行。
网络黑白不会成为这种操作的瓶颈吗?我知道这会导致大量发射,如果每个节点上都有一个迷你减速器(比如组合器)阶段,这可以避免,还是我的理解不正确?
是否有任何接近 Hadoop Map reduce 的组合器阶段的事情,或者如果没有,是否有任何类似的计划用于以后的版本?
classification - Calculation weigths in combine classifier outputs
I have 3-class classification problem and I have ensemble with 4 classifiers. Each classifier returns supports for each class. Now I want to combine this outputs using weighted average with c*L weights (c=3, L=4), but I don't know how can I calculate weights?
For example, I have dataset like this:
Di,j is support of i-th classifier for j-th class. TARGET is truth class of observation.
hadoop - mapreduce 框架在什么基础上决定是否启动组合器
根据定义,“在 mapper 和 reducer 之间的每个键上,Combiner 可以被调用 0、1 或多次。”
我想知道mapreduce框架在什么基础上决定了cobiner的启动次数。
hadoop - 组合器是否有条件地运行
min.num.spills.for.combine(默认 3)
它意味着什么?
a) 最小编号。一个地图溢出有一个组合器运行?所以即使我们指定了一个组合器,它也不能保证运行?
b) 最小编号。在组合器在通过 io.sort.factor 创建的合并/排序的单个文件上运行之前发生的溢出。因此,每次通过合并创建新文件时,组合器都会在其上运行,前提是没有。泄漏量最少 3
我觉得正确的答案是 a) ,但任何人都可以确认。
hadoop - MapReduce 与 Combiner 的执行时间
我有一个 MapReduce 作业,它读取一个文件,然后收集所有不超过 5 个字符的单词,并使用第一个字母作为键以大写字母开头。我在没有使用组合器的情况下运行了两次工作,第二次使用组合器运行了这项工作。我比较了执行时间,我注意到使用组合器增加了执行时间。我想知道是什么导致时间增加,使用组合器时总是这样吗?
谢谢
hadoop - 为什么在 Hadoop 中 reduce_input_records 小于 combine_output_records?
我使用组合器运行 WordCount 的示例。下面是运行结果:
我有两个问题,为什么map_output_records
小于combine_input_records
?为什么reduce_input_records
比 少得多combine_output_records
?我知道组合器可能会被多次调用,但这个数字不应该combine_output_records
是最后一次调用的结果吗?为什么它不等于reducers 消耗的记录数?
谢谢你的帮助!
hadoop - HADOOP 合路器操作功能
我对 Hadoop Map/Reduce 框架中的组合器功能有疑问。组合器操作仅适用于映射任务输出的键值对或发生在给定节点上的所有映射任务。事实上,我已经做了一些测试,它似乎是第一个。如果我是对的,根据您的说法,为什么选择这种行为,因为知道组合所有地图任务输出对于减少带宽使用非常有益。
提前致谢