1)Databricks 提出了 3 层(青铜、白银、黄金),但推荐在哪一层用于机器学习,为什么?我想他们建议在黄金层中清理并准备好数据。
2)如果把这3层的概念抽象出来,青铜层是Data Lake,白银层是数据库,黄金层是数据仓库?我的意思是在功能方面,.
3) Delta 架构是商业术语,还是 Kappa 架构的演变,还是 Lambda 和 Kappa 架构的新趋势架构?(Delta + Lambda 架构)与 Kappa 架构之间有什么区别?
4) 在许多情况下,Delta + Spark 的规模比大多数数据库要大得多,而且通常要便宜得多,如果我们调整得当,我们可以获得快 2 倍的查询结果。我知道将实际趋势数据仓库与 Feature/Agg 数据存储进行比较非常复杂,但我想知道如何进行这种比较?
5)我曾经使用 Kafka、Kinesis 或 Event Hub 进行流式处理,我的问题是如果我们用 Delta Lake 表替换这些工具会发生什么样的问题(我已经知道一切都取决于很多事情,但我希望对此有一个大致的了解)。