在将 parquet 文件写回 DataLake Gen2 时,会创建其他文件。
例子:
%python
rawfile = "wasbs://xxxx@dxxxx.blob.core.windows.net/xxxx/2019-09-30/account.parquet"
curatedfile = "wasbs://xxxx@xxxx.blob.core.windows.net/xxxx-Curated/2019-09-30/account.parquet"
dfraw = spark.read.parquet(rawfile)
dfraw.write.parquet(curatedfile, mode = "overwrite")
display(dfraw)
提供的文件名 (account.parquet) 记入创建的文件夹,而不是创建具有该名称的文件。
如何忽略这些附加文件并使用提供的名称写入文件。