scala - 在 Spark 中重新组合/连接 DataFrame 行

Question

我有一个看起来像这样的 DataFrame：

scala> data.show
+-----+---+---------+
|label| id| features|
+-----+---+---------+
|  1.0|  1|[1.0,2.0]|
|  0.0|  2|[5.0,6.0]|
|  1.0|  1|[3.0,4.0]|
|  0.0|  2|[7.0,8.0]|
+-----+---+---------+

我想根据“id”重新组合功能，以便获得以下信息：

scala> data.show
+---------+---+-----------------+
|    label| id| features        |
+---------+---+-----------------+
|  1.0,1.0|  1|[1.0,2.0,3.0,4.0]|
|  0.0,0.0|  2|[5.0,6.0,7.8,8.0]|
+---------+---+-----------------+

这是我用来生成提到的 DataFrame 的代码

val rdd = sc.parallelize(List((1.0, 1, Vectors.dense(1.0, 2.0)), (0.0, 2, Vectors.dense(5.0, 6.0)), (1.0, 1, Vectors.dense(3.0, 4.0)), (0.0, 2, Vectors.dense(7.0, 8.0))))
val data = rdd.toDF("label", "id", "features")

我一直在尝试使用 RDD 和 DataFrames 做不同的事情。到目前为止，最“有前途”的方法是基于“id”进行过滤

data.filter($"id".equalTo(1))

+-----+---+---------+
|label| id| features|
+-----+---+---------+
|  1.0|  1|[1.0,2.0]|
|  1.0|  1|[3.0,4.0]|
+-----+---+---------+

但我现在有两个瓶颈：

1）如何自动过滤“id”可能具有的所有不同值？

以下会产生错误：

data.select("id").distinct.foreach(x => data.filter($"id".equalTo(x)))

2）如何将共同的“特征”连接到给定的“id”。没有尝试太多，因为我仍然坚持 1)

任何建议都非常受欢迎

注意：为澄清起见，每次出现“id”时，“label”总是相同的。对不起，我的任务的一个简单扩展也是对“标签”进行分组（更新示例）

score 6 · Accepted Answer

我相信没有有效的方法来实现您想要的，并且额外的订单要求不会使情况变得更好。我能想到的最干净的方法是groupByKey这样的：

import org.apache.spark.mllib.linalg.{Vectors, Vector}
import org.apache.spark.sql.functions.monotonicallyIncreasingId
import org.apache.spark.sql.Row
import org.apache.spark.rdd.RDD


val pairs: RDD[((Double, Int), (Long, Vector))] = data
  // Add row identifiers so we can keep desired order
  .withColumn("uid", monotonicallyIncreasingId)
  // Create PairwiseRDD where (label, id) is a key
  // and (row-id, vector is a value)
  .map{case Row(label: Double, id: Int, v: Vector, uid: Long) => 
    ((label, id), (uid, v))}

val rows = pairs.groupByKey.mapValues(xs => {
  val vs = xs
    .toArray
    .sortBy(_._1) // Sort by row id to keep order
    .flatMap(_._2.toDense.values) // flatmap vector values

  Vectors.dense(vs) // return concatenated vectors 

}).map{case ((label, id), v) => (label, id, v)} // Reshape

val grouped = rows.toDF("label", "id", "features")

grouped.show

// +-----+---+-----------------+
// |label| id|         features|
// +-----+---+-----------------+
// |  0.0|  2|[5.0,6.0,7.0,8.0]|
// |  1.0|  1|[1.0,2.0,3.0,4.0]|
// +-----+---+-----------------+

也可以使用类似于我提出的用于 mysql GROUP_CONCAT 聚合函数的 SPARK SQL 替换的 UDAF，但它的效率甚至低于此。

scala - 在 Spark 中重新组合/连接 DataFrame 行

1 回答 1

Related

Reference