1

我们能够通过将增量文件源指定为 ADF 中的 parquet 数据集来读取文件。尽管这会读取 delta 文件,但它最终会读取 delta 文件中数据的所有版本/快照,而不是专门获取最新版本的 delta 数据。

这里有一个类似的问题 - Is it possible to connect to databricks deltalake tables from adf

但是,我希望从 ADLS Gen2 位置读取增量文件。感谢您对此的任何指导。

4

2 回答 2

4

我不认为你现在可以像从 Parquet 文件中读取那样轻松地做到这一点,因为 Delta Lake 文件基本上是 Parquet 格式的事务日志文件 + 快照。除非您每次从 Delta Lake 目录读取之前都 VACUUM,否则您最终会像观察到的那样准备好快照数据。

Delta Lake 文件在 Databricks 之外不能很好地播放。

在我们的数据管道中,我们通常有一个 Databricks 笔记本,可以将数据从 Delta Lake 格式导出到临时位置的常规 Parquet 格式。我们让 ADF 读取 Parquet 文件并在完成后进行清理。根据您的数据大小和使用方式,这可能适合您,也可能不适合您。

于 2020-02-25T12:26:21.687 回答
2

时间已经过去,现在 ADF Delta 对 Data Flow 的支持处于预览阶段……希望它很快就会成为 ADF 原生。 https://docs.microsoft.com/en-us/azure/data-factory/format-delta

于 2020-07-13T00:39:56.603 回答