pyspark - Marge 使用 pyspark 中的笔记本在 dbutils 中移动/复制大数据文件

问问题 2020-12-24T11:49:50.467

190 次

将数据帧作为 tsv 写入数据块文件系统 ( DBFS ) 中，具有巨大的数据大小（30GB 到 1TB）。我目前正在使用以下代码

df.coalesce(1).write.format("csv").option("delimiter", "\t").option("nullValue",None).option("header", inheader).mode("overwrite").save(tsvPathtemp)

对于 100GB，复制文件需要一个小时。我曾尝试删除它复制多个文件的 coalesce(1)，但我想要一个 tsv 文件作为输出。

任何人都可以建议复制文件的最佳方法/代码。

另外，如何在 databricks 笔记本中导入 hadoop 文件系统。参考下面的问题

import org.apache.hadoop.fs.FileUtil
import org.apache.hadoop.fs.FileSystem;

0 回答 0