我正在根据密钥对 RDD 进行分组。
rdd.groupBy(_.key).partitioner
=> org.apache.spark.HashPartitioner@a
我看到默认情况下 SparkHashPartitioner
与这个 RDD 关联,这对我来说很好,因为我同意我们需要某种分区器来将相似的数据带到一个执行器。但是,在程序的后面,我希望 RDD 忘记它的分区策略,因为我想将它与另一个遵循不同分区策略的 RDD 连接起来。我们如何从 RDD 中删除分区器?
我正在根据密钥对 RDD 进行分组。
rdd.groupBy(_.key).partitioner
=> org.apache.spark.HashPartitioner@a
我看到默认情况下 SparkHashPartitioner
与这个 RDD 关联,这对我来说很好,因为我同意我们需要某种分区器来将相似的数据带到一个执行器。但是,在程序的后面,我希望 RDD 忘记它的分区策略,因为我想将它与另一个遵循不同分区策略的 RDD 连接起来。我们如何从 RDD 中删除分区器?