我们有一个像这样的表创建数据块脚本,
finalDF.write.format('delta').option("mergeSchema", "true").mode('overwrite').save(table_path)
spark.sql("CREATE TABLE IF NOT EXISTS {}.{} USING DELTA LOCATION '{}' ".format('GOLDDB', table, table_path))
因此,在第一次加载期间最初在 table_path 中,我们只有 1 个文件。所以它会随着增量和日常文件的累积而运行。所以在 10 次增量加载之后,这需要大约 10 个小时才能完成。您能否帮助我了解如何优化负载?可以合并文件吗?
我只是出于测试目的尝试删除一些文件,但它失败并出现错误,即日志文件中存在的某些文件丢失,并且当您手动删除文件时会发生这种情况..
请就如何优化此查询提出建议