我正在创建一个 javaPairRDD 并使用 apache-spark 将其保存到 sequenceFileFormat。Spark 版本是 2.3。我在普通的 4 节点集群上运行它,路径也是普通的 hdfs 路径。我正在使用火花代码(Java)来做这件事:
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD <Integer> jr = sc.parallelize(Arrays.asList(1,2,3,4,5));
JavaPairRDD<NullWritable, Integer> outputData = jr.mapToPair( p -> {
return new Tuple2<>(NullWritable.get(), p);
});
outputData.saveAsHadoopFile("hdfs://master:54310/user/output12",
NullWritable.class, IntWritable.class, SequenceFileOutputFormat.class);
sc.close();
但是当我尝试运行代码时,我得到以下异常
org.apache.spark.SparkException: Task failed while writing rows