0

最近我发现了数据湖世界,我打算用 ADL 建立一个数据湖。我不确定的一件事是数据湖应该如何跟踪随时间的变化/处理来自源的不同版本。

我遇到过声称数据湖按原样提供数据的站点,其他状态是数据应该加时间戳或文件夹结构应该反映时间戳。

无论如何,任何最佳实践?

干杯!

4

1 回答 1

1

数据湖中通常有不同的区域。这是对公共区域的一个很好的解释。在原始区域中,数据通常与源数据保持不变。它可能是自上次加载以来更改的记录的增量加载,也可能是数据源实体的完整副本。这通常是您会看到每个实体的时间戳文件夹的地方。例如,您可能具有以下文件夹结构。

原始数据

Organizational Unit

      Subject Area

           Original Data Source

                Object

                     Date Loaded

                          File(s)

用户通常不会查询原始区域。它充当数据的历史档案。

用户经常会查询 Curated zone。此区域通常包含来自 Raw 的数据子集,这些数据已被转换以满足用户需求。通常,这包含实体当前外观的副本,省略旧版本,因为这是分析师/数据科学家想要看到的,或者因为这是需要馈送到从数据湖获取数据的另一个应用程序的内容。您可以在此处找到对 Raw 和 Curated 区域的很好解释。

因此,您可能会同时拥有跟踪更改的时间戳数据以及当前快照。您可能读到的是,数据湖应该允许您重新创建实体在特定时间的样子,而这可以在 Raw 中完成。但其他区域可以满足您组织的数据需求,无论是当前数据、所有历史数据还是特定日期的快照。

于 2019-07-26T18:28:38.850 回答