4

我试图从青铜、白银、黄金中了解三角洲湖的数据流结构。黄金应该用于商业用途,并准备好通过数据仓库或某些报告服务获取。(我理解对吗?)我的问题实际上是通过将这些“黄金”表引入到数据仓库来实现更深入的数据生命周期。

谢谢!

4

1 回答 1

0

我自己还在学习这个,但这是我到目前为止所理解的。

青铜级别意味着来自源的数据。它应该保持不变,并简单地保存到青铜级别的增量表中。

银级是清洁的第一阶段。在这里,您可以进行数据治理、删除空值等。

黄金级别是应准备好供不同应用程序或 ML 平台使用的已清理数据的最终级别。

在每个步骤之间都有一个作业,应该在上一级的数据上运行以清理它并为下一步做准备。

在此处查看此链接以进行深入讨论:https ://databricks.com/blog/2019/08/14/productionizing-machine-learning-with-delta-lake.html

于 2021-07-31T02:50:50.080 回答