我们在项目中使用kedro。通常,可以这样定义数据集:
client_table:
type: spark.SparkDataSet
filepath: ${base_path_spark}/${env}/client_table
file_format: parquet
save_args:
mode: overwrite
现在我们在数据块上运行,它们提供了许多优化,例如autoOptimizeShuffle
. 我们正在考虑利用它来处理我们的 15TB+ 数据集。
但是,我不清楚如何将 kedro 与 databricks delta Lake 解决方案一起使用