3

我正在使用以下代码运行应用程序。我不明白为什么只有 1 个执行器在使用,即使我有 3 个。当我尝试增加范围时,我的工作失败导致任务管理器失去执行器。在总结中,我看到了随机写入的值,但随机读取为 0(可能导致所有数据都在一个节点上,并且不需要随机读取来完成作业)。

val rdd: RDD[(Int, Int)] = sc.parallelize((1 to 10000000).map(k => (k -> 1)).toSeq)
val rdd2= rdd.sortByKeyWithPartition(partitioner = partitioner)
val sorted = rdd2.map((_._1))
val count_sorted = sorted.collect()

编辑:我增加了执行程序和驱动程序的内存和内核。我还将执行者的数量从 4 个更改为 1 个。这似乎有所帮助。我现在看到每个节点上的随机读取/写入。

4

2 回答 2

4

看起来您的代码最终只有一个 RDD 分区。您应该将 RDD 的分区增加到至少 3 个以利用所有 3 个执行程序。

于 2016-09-21T03:40:39.387 回答
3

..可能导致所有数据都在一个节点上

这应该会让您认为您的 RDD 只有一个分区,而不是 3 个或更多,最终会利用所有执行程序。

因此,扩展 Hokam 的答案,这就是我要做的:

rdd.getNumPartitions

现在如果那是 1,那么重新分区你的 RDD,像这样:

rdd = rdd.repartition(3) 

这会将您的 RDD 划分为 3 个分区。

现在再次尝试执行您的代码。

于 2016-09-21T04:16:05.487 回答