我正在使用 apache spark 0.8.0 来处理一个大数据文件.map
并.reduceByKey
在RDD
.
由于我使用的是具有多个处理器的单台机器,因此我local[8]
在创建时在主 URL 字段中提到SparkContext
val sc = new SparkContext("local[8]", "Tower-Aggs", SPARK_HOME )
但是每当我提到多个处理器时,这项工作就会随机卡住(暂停/停止)。卡住的地方没有确定的,只是随机的。有时它根本不会发生。我不确定在那之后它是否会继续,但它会卡住很长时间,之后我中止了工作。
但是,当我只是使用local
代替时local[8]
,作业可以无缝运行而不会卡住。
val sc = new SparkContext("local", "Tower-Aggs", SPARK_HOME )
我无法理解问题出在哪里。
我正在使用Scala 2.9.3
并sbt
构建和运行应用程序