0

我有两个变量。一个是 Dataframe,另一个是 List[Dataframe]。我希望对这些进行连接。目前我正在使用以下方法:

def joinDfList(SingleDataFrame: DataFrame, DataFrameList: List[DataFrame], groupByCols: List[String]): DataFrame = {

    var joinedDf = SingleDataFrame
    DataFrameList.foreach(
      Df => {
        joinedDf = joinedDf.join(Df, groupByCols, "left_outer")
      }
    )
    joinedDf.na.fill(0.0)
}

有没有一种方法可以让我们跳过使用“var”而不是“foreach”使用“foldleft”?

4

1 回答 1

1

您可以使用以下方法简单地编写它而不使用 vars foldLeft

def joinDfList(singleDataFrame: DataFrame, dataFrameList: List[DataFrame], groupByCols: List[String]): DataFrame = 
  dataFrameList.foldLeft(singleDataFrame)(
    (dfAcc, nextDF) => dfAcc.join(nextDF, groupByCols, "left_outer")
  ).na.fill(0.0)

在此代码dfAcc中将始终与 new DataFramefrom连接dataFrameList,最后您将获得一个DataFrame

重要的!请注意,在一项作业中使用太多连接可能是性能下降的原因。

于 2020-08-05T21:29:21.307 回答