将数据帧作为 tsv 写入数据块文件系统 ( DBFS ) 中,具有巨大的数据大小(30GB 到 1TB)。我目前正在使用以下代码
df.coalesce(1).write.format("csv").option("delimiter", "\t").option("nullValue",None).option("header", inheader).mode("overwrite").save(tsvPathtemp)
对于 100GB,复制文件需要一个小时。我曾尝试删除它复制多个文件的 coalesce(1),但我想要一个 tsv 文件作为输出。
任何人都可以建议复制文件的最佳方法/代码。
另外,如何在 databricks 笔记本中导入 hadoop 文件系统。参考下面的问题
import org.apache.hadoop.fs.FileUtil
import org.apache.hadoop.fs.FileSystem;