客观的
我对术语有点困惑:我已经基于 Kimball 的数据建模方法构建了 Data Lake(不是 DW),现在不确定是否可以使用 Data Mart 定义来命名我的 MPP 数据库层。
我假设您仍然需要中型组织报告的维度建模和星型模式,与本文中的推理相同。
问题
- 在以下架构中将Synapse 称为数据集市是否正确(见下图)?
- 我可以说我没有 DW(即使我有 Star Schema),而是我有 Data Lake + Data Mart(s)?
- 我是否应该根据业务/报告子域(多个数据集市)将 Synapse 拆分为多个模式?
架构细节
更具体地说,在我的情况下:
2-3) ADLS + Databricks 形成数据湖。所有 ETL 和星型模式构建都发生在数据湖层。所有的逻辑座位在这里。它仍然在原始层具有结构化和非结构化数据,使用廉价的 ADLS 存储,缺乏治理,拥有 ML 并且将来会有流式传输。另一方面,我们在所有 DL 区域中都有 schema-on-write,除了 raw,我们有预先建模的表(在这个过程中有很多需求变化)。我称它为数据湖是否正确?
4.) Synapse 用作 ETL/Lake 结果的微小投影/模型,以加快报告响应时间。这里几乎为零逻辑,很少聚合。只有最终模型加载到 Synapse。数据不按业务子域拆分,我们只是将所有内容加载到单个 DATAMART 模式中。这是一个好方法吗?