1

我正在评估如何使用 Azure 数据目录为数据湖批量转换管道实施数据治理解决方案。以下是我的处理方法。请问有什么见解吗?

  1. 数据工厂无法捕获从源到数据湖的沿袭。
  2. 我知道数据目录不能不维护数据湖上数据管理的业务规则。
  3. 首先,数据馈送是从给定业务词汇表等下的 Azure 数据目录手动载入的。或者当原始数据馈送被摄取到 Data Lake Storage 中时,将在给定业务词汇表下自动创建资产(如果它不存在)。
  4. 原始数据在湖上的光转换过程中被清理、分类和标记。因此,需要在 Data Catalog 上创建相关标签。(这是调用 Azure 数据目录 REST API 的自定义编码)
  5. 然后是ETL处理。要在 Data Catalog 中使用标记创建的新数据资产。这些工具是基于 Spark 的。(这是调用 Azure 数据目录 REST API 的自定义编码)最后,数据目录将显示在特定业务词汇表下的 Data Lake 批量转换数据管道中创建的所有数据资产,并带有正确的标签。
  6. 我正在跳过操作元数据和完整沿袭,因为 Azure 产品中没有这样的解决方案。这需要再次定制解决方案。

我正在寻找最佳实践。欣赏你的想法。

非常感谢

岑吉兹

4

0 回答 0