如何使用 java 从 pairRDD 创建 Spark 数据集。能否请你帮忙?
问问题
116 次
1 回答
0
基本上,要在 Java 中从数据集转换为 pairRDD,首先需要将数据集转换为 RDD using javaRDD()
,然后转换为pairRDD
using mapToPair
。
这是一个例子:
//creating a dataset (of rows)
Dataset<Row> ds = spark
.range(5)
.select(col("id").alias("x"),
col("id").multiply(col("id")).alias("y"));
JavaPairRDD<Long, Long> pairRDD = ds
.javaRDD() // to RDD in Java
.mapToPair(row -> new Tuple2<>(row.getLong(0), row.getLong(1)));
于 2019-12-05T09:35:58.447 回答