我对 Spark 和 Scala 的并行性有些困惑。我正在运行一个实验,我必须从磁盘更改/处理某些列中读取许多(csv)文件,然后将其写回磁盘。
在我的实验中,如果我只使用 SparkContext 的并行化方法,那么它似乎对性能没有任何影响。然而,简单地使用 Scala 的并行集合(通过 par)将时间几乎减少了一半。
我在 localhost 模式下运行我的实验,参数 local[2] 用于 spark 上下文。
我的问题是何时应该使用 scala 的并行集合以及何时使用 spark 上下文的并行化?