python - 将标头映射到 PySpark sql Dataframe

翻译自：https://stackoverflow.com/questions/53490800 2018-11-26T23:50:56.320

56 次

我正在研究 Azure Databricks，我的方案如下：

我正在读取（使用：spark.read.format("csv").options().load()）存储在 Blob 存储中的 CSV 文件。这样的文件包含 1000 列/变量（一千），但数据和标题是分开的（不同的文件）。我想将标头映射到 pyspark.sql.dataframe.DataFrame 但我的方法花了 1.18 小时。

这是我使用的方法。

oldNames = df.schema.names
newNames = ["name", "lastName" ,.........] #Just an example
dfMap= reduce(lambda df, idx: df.withColumnRenamed(oldColumns[idx], newColumns[idx]), range(len(oldColumns)), df)

我确信有更快的方法/更好的方法来完成这样的任务。

谢谢！

python - 将标头映射到 PySpark sql Dataframe

0 回答 0

Related

Reference