我有一个名为“edges”的大数据
org.apache.spark.rdd.RDD[org.apache.spark.graphx.Edge[(String, Int)]] = MappedRDD[27] at map at <console>:52
当我在独立模式下工作时,我能够收集、计数和保存这个文件。现在,在集群上,我收到了这个错误
edges.count
...
Serialized task 28:0 was 12519797 bytes which exceeds spark.akka.frameSize
(10485760 bytes). Consider using broadcast variables for large values.
与 .saveAsTextFile("edges") 相同
这是来自火花壳。我尝试使用选项
--driver-java-options "-Dspark.akka.frameSize=15"
但是当我这样做时,它只是无限期地挂起。任何帮助,将不胜感激。
** 编辑 **
我的独立模式是 Spark 1.1.0,我的集群是 Spark 1.0.1。
此外,当我对 RDD 进行计数、收集或保存时会发生挂起,但定义它或对其进行过滤器工作得很好。