0

我们在项目中使用kedro。通常,可以这样定义数据集:

client_table:
  type: spark.SparkDataSet
  filepath: ${base_path_spark}/${env}/client_table
  file_format: parquet
  save_args:
    mode: overwrite

现在我们在数据块上运行,它们提供了许多优化,例如autoOptimizeShuffle. 我们正在考虑利用它来处理我们的 15TB+ 数据集。

但是,我不清楚如何将 kedro 与 databricks delta Lake 解决方案一起使用

4

1 回答 1

1

它对我们有用。

    client_table:
      type: kedro.contrib.io.pyspark.SparkDataSet
      filepath: ${base_path_spark}/${env}/client_table
      file_format: "delta"
      save_args:
        mode: overwrite
于 2021-01-06T16:08:56.110 回答