问题标签 [reducers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hadoop:什么时候在 reducer 中调用 setup 方法?
据我了解,reduce 任务分为三个阶段。
Shuffle、Sort 和实际的 reduce 调用。
所以通常在 hadoop 作业的输出中,我们会看到类似 map 0% reduce 0% map 20% reduce 0% 的内容。. . 地图 90% 减少 10% 。. .
所以我假设reduce任务在所有映射完成之前开始,这种行为由慢启动配置控制。
现在我还不明白reducer的setup方法是什么时候真正被调用的。
在我的用例中,我有一些文件要在 setup 方法中解析。该文件大小约为 60MB,是从分布式缓存中提取的。在解析文件时,配置中的另一组数据可以更新刚刚解析的记录。在解析和可能的更新之后,文件存储在 HashMap 中以便快速查找。所以我希望尽快调用这个方法,可能在映射器还在做他们的事情的时候。
是否有可能做到这一点?或者这已经发生了?
谢谢
java - 未能设置 KeyComparator 函数
我正在尝试按值对数据进行排序
我使用的方法是将键和值组合成一个复合键
例如 (key,value) -> ({key,value},value)
并定义我的 KeyComaparator 来比较键中的值部分
我的数据是一段我应该数单词的段落
我做了两个工作,第一个做wordCount,但是在reducer中将键组合成复合键。
这是结果
是,4 4,15
15
ECA,1 1
至,6 6
.....
在第二份工作中,我尝试使用复合键按值排序
这是我的映射器2
这是我的密钥比较器
这是我的减速机2
这是我的主要功能
但结果是这样的
是 13
32
ECA 21
到 14
。. .
丢了很多字
但如果我没有使用我的 Keycomarator
它返回未排序的结果,就像我提到的第一个
有什么想法可以解决这个问题吗?谢谢!
performance - Clojure 性能,如何输入提示到 r/map
下面,我有 2 个函数计算它们的参数的平方和。第一个很好用,但比第二个慢 20 倍。我认为 r/map 没有利用 get 从双数组中检索元素,而我在函数 2 中明确地这样做了。
有什么方法可以进一步输入提示或帮助 r/map r/fold 更快地执行?
800 纳秒
40 纳秒
java - 根据reducer上的长度对单词进行分类
我是 MapReduce 应用程序的新手。我只是想在我的数据集上找到单词的长度,并根据它们的长度将它们分类为小、小、中、大,最后,我想看看总数有多少词是小、小、中或者我在 Java 中的数据集很大,但我在实现 reducer 时遇到了问题。当我在 Hadoop 集群上执行 jar 文件时,它不会返回任何结果。如果有人帮助我,我将不胜感激。这是我尝试执行的减速器代码,但我猜有很多错误。
hive - Hive Partition数量的reducer
您能否澄清以下内容-
- 在分区期间如何设置映射器和减速器的数量?
- 我有 6 个减速器和 2 个分区,每个分区中只有文件(总共 2 个文件)。所以,如果有 6 个 reducer,他们应该给 6 个文件正确....那么怎么可能只给 2 个输出文件(分区)。?
谢谢,阿伦
hadoop - 为 Pig 作业设置最小减速器数量
我想为我的 Pig Job 设置要启动的最小减速器数量。我尝试使用: SET default_parallel 57;
但是,这迫使所有工作都有 57 个减速器。
是否有任何设置可以强制 Pig Job 具有最少 57 个或更多数量的减速器。
hadoop - 无法访问reduce类中的reduce方法
它没有给出任何错误。我能够访问该类,因为我能够启动这些变量txtReduceOutputKey
和txtReduceOutputValue
. 但该reduce
方法在执行时被忽略。所以我无法运行上述方法中的代码//一些代码。我也在使用以下软件包。
知道如何解决这个问题吗?
arrays - 遍历数组并分配每个值
我需要一个 reducer 来遍历一个数组并分配每个元素(总共 2 个元素)。但是我的代码是否采用所有值并将其简单地分配给键?
例如这里:
这种方法是否只是将我的所有数组转储到值桶中?
有没有办法使用 While 循环来获取 Text[] 的每个元素并将其分配给一个 int?
这是我的开始:
这将采用每个值并使其成为 AtBat,但我希望第二个元素成为 Hit。对如何实现这一点感到困惑。
hadoop - 在 hadoop reducer 中检索全局参数返回 null
我为这样的工作设置了一个全局变量:
我像这样在减速器中访问它,并检查了值:
但它的值也打印为 null
空指针异常
当我尝试使用检索到的变量时遇到
属性
稍后在代码中。
请帮助我找出问题所在。
hadoop - 为什么reducer比mapper获得更多的内存?
为什么在 Hadoop Yarn 内存配置中,reducer 总是比 mapper 获得更多的内存?
例子: