问题标签 [partitioner]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

56 问题

0 投票

2 回答

412 浏览

hadoop - 如果在 Hadoop Map Reduce 中定义了自定义分区器，默认哈希分区器是否仍然有效？

由于我是 hadoop 新手，我尝试了http://www.tutorialspoint.com/map_reduce/map_reduce_partitioner.htm中的示例代码，我发现该程序使用 3 个基于年龄组的不同分区，并且还使用了 3 个减速器，其中是期待。但是在 reducer 代码中（这里的性别是男性/女性的关键）我仍然得到，我假设这个值列表是由哈希分区器完成的。但是正如我定义的 getPartitions() ，这个列表是谁创建的？

2015-11-24T20:09:23.920

0 投票

3 回答

507 浏览

hadoop - 分区程序无法正常工作

我正在尝试编写一个 MapReduce 场景，其中我以 JSON 的形式创建了一些用户 ClickStream 数据。之后，我编写了 Mapper 类以从文件中获取所需的数据，我的映射器代码是：-

}

我的减速器代码是：-

我的分区代码是：-

这是我的驱动程序代码

在这里，我试图根据国家代码划分我的数据。但它不起作用，它在一个减速器文件中发送每条记录，我认为是为美国减速器创建的文件以外的文件。

当我看到映射器的输出时，还有一件事，它显示在每条记录的末尾添加了一些额外的空间。

如果我在这里犯了任何错误，请提出建议。

hadoop mapreduce partitioner

2015-11-25T09:48:32.160

0 投票

0 回答

41 浏览

scala - 用于 S3 路径的 RDD 的自定义 Spark 分区器

我有一条RDD[(Long, String)]S3 路径（存储桶 + 密钥）及其大小。我想以这样一种方式对它进行分区，即每个分区都获得大小总和大致相同的路径。这样，当我读取这些路径的内容时，每个分区应该有大致相同的数据量来处理。我为此编写了这个自定义分区器。

如果给分区器提供了一个键（大小）按降序排序的 RDD，那么分区器应该表现最好。当我尝试使用它时，我开始在之前工作的代码中收到此错误：

这就是我使用它的方式：

而且我不确定如何解决这个问题。将不胜感激任何帮助。

scala amazon-s3 apache-spark rdd partitioner

2016-03-21T01:31:48.933

0 投票

0 回答

143 浏览

apache-spark - Spark：我们如何从 RDD 中移除 partitioner？

我正在根据密钥对 RDD 进行分组。

我看到默认情况下 SparkHashPartitioner与这个 RDD 关联，这对我来说很好，因为我同意我们需要某种分区器来将相似的数据带到一个执行器。但是，在程序的后面，我希望 RDD 忘记它的分区策略，因为我想将它与另一个遵循不同分区策略的 RDD 连接起来。我们如何从 RDD 中删除分区器？

apache-spark rdd partitioner

2016-05-05T14:15:56.447

0 投票

1 回答

2384 浏览