问题标签 [partitioner]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 如果在 Hadoop Map Reduce 中定义了自定义分区器,默认哈希分区器是否仍然有效?
由于我是 hadoop 新手,我尝试了http://www.tutorialspoint.com/map_reduce/map_reduce_partitioner.htm中的示例代码,我发现该程序使用 3 个基于年龄组的不同分区,并且还使用了 3 个减速器,其中是期待。但是在 reducer 代码中(这里的性别是男性/女性的关键)我仍然得到,我假设这个值列表是由哈希分区器完成的。但是正如我定义的 getPartitions() ,这个列表是谁创建的?
hadoop - 分区程序无法正常工作
我正在尝试编写一个 MapReduce 场景,其中我以 JSON 的形式创建了一些用户 ClickStream 数据。之后,我编写了 Mapper 类以从文件中获取所需的数据,我的映射器代码是:-
}
我的减速器代码是:-
我的分区代码是:-
这是我的驱动程序代码
在这里,我试图根据国家代码划分我的数据。但它不起作用,它在一个减速器文件中发送每条记录,我认为是为美国减速器创建的文件以外的文件。
当我看到映射器的输出时,还有一件事,它显示在每条记录的末尾添加了一些额外的空间。
如果我在这里犯了任何错误,请提出建议。
scala - 用于 S3 路径的 RDD 的自定义 Spark 分区器
我有一条RDD[(Long, String)]
S3 路径(存储桶 + 密钥)及其大小。我想以这样一种方式对它进行分区,即每个分区都获得大小总和大致相同的路径。这样,当我读取这些路径的内容时,每个分区应该有大致相同的数据量来处理。我为此编写了这个自定义分区器。
如果给分区器提供了一个键(大小)按降序排序的 RDD,那么分区器应该表现最好。当我尝试使用它时,我开始在之前工作的代码中收到此错误:
这就是我使用它的方式:
而且我不确定如何解决这个问题。将不胜感激任何帮助。
apache-spark - Spark:我们如何从 RDD 中移除 partitioner?
我正在根据密钥对 RDD 进行分组。
我看到默认情况下 SparkHashPartitioner
与这个 RDD 关联,这对我来说很好,因为我同意我们需要某种分区器来将相似的数据带到一个执行器。但是,在程序的后面,我希望 RDD 忘记它的分区策略,因为我想将它与另一个遵循不同分区策略的 RDD 连接起来。我们如何从 RDD 中删除分区器?
mapreduce - Hadoop Map Reduce - Reducer 数量
我有一个包含不同年龄段公司员工数据的用例。我需要找到三个年龄组类别的男性和女性员工的最高工资。
有关详细信息,请转到以下链接 -
http://www.myhadoopexamples.com/2014/03/01/hadoop-mapreduce-example-with-partitioner/
我的问题是 - 这里我们只有两个由映射器发出的键,即男性和女性。我们在驱动程序类中设置了 3 个减速器,因此将创建 3 个分区。
可能有以下两件事-
每 3 个分区将运行 3 个减速器,依次找出每个分区中女性和男性的最高工资。并给出如上链接所示的预期结果。
实际运行的只有减速机,一公一母,进行计算。
hadoop - 组合器和分区器之间的区别
我是 MapReduce 的新手,我只是无法弄清楚分区器和组合器的区别。我知道两者都在 map 和 reduce 任务之间的中间步骤中运行,并且都减少了 reduce 任务要处理的数据量。请举例说明区别。
hadoop - 如何在分区器 hadoop 中使用分布式缓存?
我是 hadoop 和 mapreduce 分区器的新手。我想编写自己的分区器,我需要在分区器中读取文件。我已经搜索了很多次,我知道我应该使用分布式缓存。这是我的问题,我如何在我的 hadoop 分区器中使用分布式缓存?我应该在我的分区器中写什么?
谢谢
hadoop - shuffle阶段和combiner阶段有什么区别?
我对 MapReduce 框架感到很困惑。我从不同的来源阅读有关此内容感到困惑。顺便说一句,这是我对 MapReduce Job 的想法
基本上是对的?我的意思是,我发现一些消息来源说组合器是洗牌阶段,它基本上按每条记录分组...
hadoop - 为什么hadoop分区器做二进制AND?
我对 Hadoop 完全陌生,对 Map/Reduce 也很陌生,所以如果这是一个非常简单的问题,请多多包涵。
在 hadoop 的哈希分区器中,为什么在对 reducer 的数量进行取模之前先进行 hash(key) & Integer.MAX_VALUE ?二进制 AND 的意义何在?