0

我正在根据密钥对 RDD 进行分组。

rdd.groupBy(_.key).partitioner
=> org.apache.spark.HashPartitioner@a

我看到默认情况下 SparkHashPartitioner与这个 RDD 关联,这对我来说很好,因为我同意我们需要某种分区器来将相似的数据带到一个执行器。但是,在程序的后面,我希望 RDD 忘记它的分区策略,因为我想将它与另一个遵循不同分区策略的 RDD 连接起来。我们如何从 RDD 中删除分区器?

4

0 回答 0