1

我正在研究 Azure Databricks,我的方案如下:

我正在读取(使用:spark.read.format("csv").options().load())存储在 Blob 存储中的 CSV 文件。这样的文件包含 1000 列/变量(一千),但数据和标题是分开的(不同的文件)。我想将标头映射到 pyspark.sql.dataframe.DataFrame 但我的方法花了 1.18 小时。

这是我使用的方法。

oldNames = df.schema.names
newNames = ["name", "lastName" ,.........] #Just an example
dfMap= reduce(lambda df, idx: df.withColumnRenamed(oldColumns[idx], newColumns[idx]), range(len(oldColumns)), df)

我确信有更快的方法/更好的方法来完成这样的任务。

谢谢!

4

0 回答 0