问题标签 [partitioner]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
412 浏览

hadoop - 如果在 Hadoop Map Reduce 中定义了自定义分区器,默认哈希分区器是否仍然有效?

由于我是 hadoop 新手,我尝试了http://www.tutorialspoint.com/map_reduce/map_reduce_partitioner.htm中的示例代码,我发现该程序使用 3 个基于年龄组的不同分区,并且还使用了 3 个减速器,其中是期待。但是在 reducer 代码中(这里的性别是男性/女性的关键)我仍然得到,我假设这个值列表是由哈希分区器完成的。但是正如我定义的 getPartitions() ,这个列表是谁创建的?

0 投票
3 回答
507 浏览

hadoop - 分区程序无法正常工作

我正在尝试编写一个 MapReduce 场景,其中我以 JSON 的形式创建了一些用户 ClickStream 数据。之后,我编写了 Mapper 类以从文件中获取所需的数据,我的映射器代码是:-

}

我的减速器代码是:-

我的分区代码是:-

这是我的驱动程序代码

在这里,我试图根据国家代码划分我的数据。但它不起作用,它在一个减速器文件中发送每条记录,我认为是为美国减速器创建的文件以外的文件。

当我看到映射器的输出时,还有一件事,它显示在每条记录的末尾添加了一些额外的空间。

如果我在这里犯了任何错误,请提出建议。

0 投票
0 回答
41 浏览

scala - 用于 S3 路径的 RDD 的自定义 Spark 分区器

我有一条RDD[(Long, String)]S3 路径(存储桶 + 密钥)及其大小。我想以这样一种方式对它进行分区,即每个分区都获得大小总和大致相同的路径。这样,当我读取这些路径的内容时,每个分区应该有大致相同的数据量来处理。我为此编写了这个自定义分区器。

如果给分区器提供了一个键(大小)按降序排序的 RDD,那么分区器应该表现最好。当我尝试使用它时,我开始在之前工作的代码中收到此错误:

这就是我使用它的方式:

而且我不确定如何解决这个问题。将不胜感激任何帮助。

0 投票
0 回答
143 浏览

apache-spark - Spark:我们如何从 RDD 中移除 partitioner?

我正在根据密钥对 RDD 进行分组。

我看到默认情况下 SparkHashPartitioner与这个 RDD 关联,这对我来说很好,因为我同意我们需要某种分区器来将相似的数据带到一个执行器。但是,在程序的后面,我希望 RDD 忘记它的分区策略,因为我想将它与另一个遵循不同分区策略的 RDD 连接起来。我们如何从 RDD 中删除分区器?

0 投票
1 回答
2384 浏览

apache-spark - spark中的分区和自定义分区器中的重新分区和排序,给出数组越界异常

6 我试图实现这里解释的内容。当我将自定义分区中的分区数保持为 1 时它正在工作,但是当我更改此值时,它会保留任何其他值,它会给出数组超出范围的异常

我无法弄清楚是什么导致了这个错误。

提前致谢

0 投票
1 回答
84 浏览

mapreduce - Hadoop Map Reduce - Reducer 数量

我有一个包含不同年龄段公司员工数据的用例。我需要找到三个年龄组类别的男性和女性员工的最高工资。

有关详细信息,请转到以下链接 -

http://www.myhadoopexamples.com/2014/03/01/hadoop-mapreduce-example-with-partitioner/

我的问题是 - 这里我们只有两个由映射器发出的键,即男性和女性。我们在驱动程序类中设置了 3 个减速器,因此将创建 3 个分区。

可能有以下两件事-

  1. 每 3 个分区将运行 3 个减速器,依次找出每个分区中女性和男性的最高工资。并给出如上链接所示的预期结果。

  2. 实际运行的只有减速机,一公一母,进行计算。

0 投票
2 回答
10167 浏览

hadoop - 组合器和分区器之间的区别

我是 MapReduce 的新手,我只是无法弄清楚分区器和组合器的区别。我知道两者都在 map 和 reduce 任务之间的中间步骤中运行,并且都减少了 reduce 任务要处理的数据量。请举例说明区别。

0 投票
1 回答
230 浏览

hadoop - 如何在分区器 hadoop 中使用分布式缓存?

我是 hadoop 和 mapreduce 分区器的新手。我想编写自己的分区器,我需要在分区器中读取文件。我已经搜索了很多次,我知道我应该使用分布式缓存。这是我的问题,我如何在我的 hadoop 分区器中使用分布式缓存?我应该在我的分区器中写什么?

谢谢

0 投票
3 回答
3463 浏览

hadoop - shuffle阶段和combiner阶段有什么区别?

我对 MapReduce 框架感到很困惑。我从不同的来源阅读有关此内容感到困惑。顺便说一句,这是我对 MapReduce Job 的想法

基本上是对的?我的意思是,我发现一些消息来源说组合器是洗牌阶段,它基本上按每条记录分组...

0 投票
0 回答
21 浏览

hadoop - 为什么hadoop分区器做二进制AND?

我对 Hadoop 完全陌生,对 Map/Reduce 也很陌生,所以如果这是一个非常简单的问题,请多多包涵。

在 hadoop 的哈希分区器中,为什么在对 reducer 的数量进行取模之前先进行 hash(key) & Integer.MAX_VALUE ?二进制 AND 的意义何在?