我正在评估如何使用 Azure 数据目录为数据湖批量转换管道实施数据治理解决方案。以下是我的处理方法。请问有什么见解吗?
- 数据工厂无法捕获从源到数据湖的沿袭。
- 我知道数据目录不能不维护数据湖上数据管理的业务规则。
- 首先,数据馈送是从给定业务词汇表等下的 Azure 数据目录手动载入的。或者当原始数据馈送被摄取到 Data Lake Storage 中时,将在给定业务词汇表下自动创建资产(如果它不存在)。
- 原始数据在湖上的光转换过程中被清理、分类和标记。因此,需要在 Data Catalog 上创建相关标签。(这是调用 Azure 数据目录 REST API 的自定义编码)
- 然后是ETL处理。要在 Data Catalog 中使用标记创建的新数据资产。这些工具是基于 Spark 的。(这是调用 Azure 数据目录 REST API 的自定义编码)最后,数据目录将显示在特定业务词汇表下的 Data Lake 批量转换数据管道中创建的所有数据资产,并带有正确的标签。
- 我正在跳过操作元数据和完整沿袭,因为 Azure 产品中没有这样的解决方案。这需要再次定制解决方案。
我正在寻找最佳实践。欣赏你的想法。
非常感谢
岑吉兹