我有一个看起来像这样的 DataFrame:
scala> data.show
+-----+---+---------+
|label| id| features|
+-----+---+---------+
| 1.0| 1|[1.0,2.0]|
| 0.0| 2|[5.0,6.0]|
| 1.0| 1|[3.0,4.0]|
| 0.0| 2|[7.0,8.0]|
+-----+---+---------+
我想根据“id”重新组合功能,以便获得以下信息:
scala> data.show
+---------+---+-----------------+
| label| id| features |
+---------+---+-----------------+
| 1.0,1.0| 1|[1.0,2.0,3.0,4.0]|
| 0.0,0.0| 2|[5.0,6.0,7.8,8.0]|
+---------+---+-----------------+
这是我用来生成提到的 DataFrame 的代码
val rdd = sc.parallelize(List((1.0, 1, Vectors.dense(1.0, 2.0)), (0.0, 2, Vectors.dense(5.0, 6.0)), (1.0, 1, Vectors.dense(3.0, 4.0)), (0.0, 2, Vectors.dense(7.0, 8.0))))
val data = rdd.toDF("label", "id", "features")
我一直在尝试使用 RDD 和 DataFrames 做不同的事情。到目前为止,最“有前途”的方法是基于“id”进行过滤
data.filter($"id".equalTo(1))
+-----+---+---------+
|label| id| features|
+-----+---+---------+
| 1.0| 1|[1.0,2.0]|
| 1.0| 1|[3.0,4.0]|
+-----+---+---------+
但我现在有两个瓶颈:
1)如何自动过滤“id”可能具有的所有不同值?
以下会产生错误:
data.select("id").distinct.foreach(x => data.filter($"id".equalTo(x)))
2)如何将共同的“特征”连接到给定的“id”。没有尝试太多,因为我仍然坚持 1)
任何建议都非常受欢迎
注意:为澄清起见,每次出现“id”时,“label”总是相同的。对不起,我的任务的一个简单扩展也是对“标签”进行分组(更新示例)