在 Apache Spark 中,分区器用于定义数据将如何被打乱。他们都有getPartition(key: Any): Int
办法做到这一点。
特别是在 中RangePartitioner
,开发人员需要传输有关RDD
启动它的信息。所以我对分区器实际上在哪里执行他们的工作感到困惑:执行器、驱动程序还是主控器?
在 Apache Spark 中,分区器用于定义数据将如何被打乱。他们都有getPartition(key: Any): Int
办法做到这一点。
特别是在 中RangePartitioner
,开发人员需要传输有关RDD
启动它的信息。所以我对分区器实际上在哪里执行他们的工作感到困惑:执行器、驱动程序还是主控器?