-5

如何使用 java 从 pairRDD 创建 Spark 数据集。能否请你帮忙?

4

1 回答 1

0

基本上,要在 Java 中从数据集转换为 pairRDD,首先需要将数据集转换为 RDD using javaRDD(),然后转换为pairRDDusing mapToPair

这是一个例子:

//creating a dataset (of rows)
Dataset<Row> ds = spark
    .range(5)
    .select(col("id").alias("x"),
            col("id").multiply(col("id")).alias("y"));
JavaPairRDD<Long, Long> pairRDD = ds
    .javaRDD() // to RDD in Java
    .mapToPair(row -> new Tuple2<>(row.getLong(0), row.getLong(1)));
于 2019-12-05T09:35:58.447 回答