我正在写我的数据框,如下所示
df.write().format("com.databricks.spark.avro").save("path");
但是,我收到了大约 200 个文件,其中大约 30-40 个文件是空的。我可以理解这可能是由于分区为空。然后我更新了我的代码
df.coalesce(50).write().format("com.databricks.spark.avro").save("path");
但我觉得它可能会影响性能。有没有其他更好的方法来限制输出文件的数量并删除空文件