我试图从青铜、白银、黄金中了解三角洲湖的数据流结构。黄金应该用于商业用途,并准备好通过数据仓库或某些报告服务获取。(我理解对吗?)我的问题实际上是通过将这些“黄金”表引入到数据仓库来实现更深入的数据生命周期。
谢谢!
我试图从青铜、白银、黄金中了解三角洲湖的数据流结构。黄金应该用于商业用途,并准备好通过数据仓库或某些报告服务获取。(我理解对吗?)我的问题实际上是通过将这些“黄金”表引入到数据仓库来实现更深入的数据生命周期。
谢谢!
我自己还在学习这个,但这是我到目前为止所理解的。
青铜级别意味着来自源的数据。它应该保持不变,并简单地保存到青铜级别的增量表中。
银级是清洁的第一阶段。在这里,您可以进行数据治理、删除空值等。
黄金级别是应准备好供不同应用程序或 ML 平台使用的已清理数据的最终级别。
在每个步骤之间都有一个作业,应该在上一级的数据上运行以清理它并为下一步做准备。
在此处查看此链接以进行深入讨论:https ://databricks.com/blog/2019/08/14/productionizing-machine-learning-with-delta-lake.html