我是数据治理的新手,如果问题缺少一些信息,请原谅我。
客观的
我们正在 Azure 平台上为中型电信公司从头开始构建数据湖和企业数据仓库。我们将 ADLS gen2、Databricks 和 Synapse 用于 ETL 处理、数据科学、ML 和 QA 活动。
我们已经有大约 100 个输入表和 25 TB/年。未来,我们期待更多。
企业对与云无关的解决方案有强烈的需求。他们仍然可以使用 Databricks,因为它在 AWS 和 Azure 上可用。
问题
什么是我们的堆栈和要求的最佳数据治理解决方案?
我的解决方法
我还没有使用任何数据治理解决方案。我喜欢AWS Data Lake解决方案,因为它提供了开箱即用的基本功能。AFAIK,Azure 数据目录已过时,因为它不支持 ADLS gen2。
经过非常快速的谷歌搜索后,我发现了三个选项:
- Databricks Privacera
- Databricks Immuta
- 阿帕奇游侠和阿帕奇阿特拉斯。
目前我什至不确定第三个选项是否完全支持我们的 Azure 堆栈。此外,它将有更大的开发(基础设施定义)工作。那么我有什么理由应该研究 Ranger/Atlas 的方向吗?
选择 Privacera 而不是 Immuta 的原因是什么,反之亦然?
还有其他我应该评估的选择吗?
已经做了什么
从数据治理的角度来看,我们只做了以下事情:
- 在 ADLS 中定义数据区域
- 对敏感数据应用加密/混淆(由于 GDPR 要求)。
- 在 Synapse 和 Power BI 层实施行级安全性 (RLS)
- 用于记录持久化内容和时间的自定义审计框架
要做的事情
- 数据沿袭和单一事实来源。即使在开始的 4 个月内,理解数据集之间的依赖关系也成为一个痛点。血统信息存储在 Confluence 内部,很难在多个地方维护和持续更新。即使现在它在某些地方已经过时了。
- 安全。未来业务用户可能会在 Databricks Notebooks 中进行一些数据探索。我们需要用于 Databricks 的 RLS。
- 数据生命周期管理。
- 也许其他与数据治理相关的东西,例如数据质量等。