scala - 使用 Scala 在 Apache Spark 中连接不同 RDD 的数据集

Question

有没有办法RDD在spark中连接两个不同s的数据集？

要求是 - 我使用具有相同列名的 scala 创建了两个中间 RDD，需要组合两个 RDD 的这些结果并缓存结果以访问 UI。我如何在这里合并数据集？

RDD 的类型spark.sql.SchemaRDD

score 45 · Accepted Answer

我想你正在寻找RDD.union

val rddPart1 = ???
val rddPart2 = ???
val rddAll = rddPart1.union(rddPart2)

示例（在 Spark-shell 上）

val rdd1 = sc.parallelize(Seq((1, "Aug", 30),(1, "Sep", 31),(2, "Aug", 15),(2, "Sep", 10)))
val rdd2 = sc.parallelize(Seq((1, "Oct", 10),(1, "Nov", 12),(2, "Oct", 5),(2, "Nov", 15)))
rdd1.union(rdd2).collect

res0: Array[(Int, String, Int)] = Array((1,Aug,30), (1,Sep,31), (2,Aug,15), (2,Sep,10), (1,Oct,10), (1,Nov,12), (2,Oct,5), (2,Nov,15))

score 2 · Accepted Answer

我有同样的问题。要按行而不是按列组合，请使用 unionAll：

val rddPart1= ???
val rddPart2= ???
val rddAll = rddPart1.unionAll(rddPart2)

我在阅读数据框的方法摘要后找到了它。更多信息请访问：https ://spark.apache.org/docs/latest/api/java/org/apache/spark/sql/DataFrame.html

scala - 使用 Scala 在 Apache Spark 中连接不同 RDD 的数据集

2 回答 2

Related

Reference