我想更详细地了解数据仓库和数据湖。
在我看来,这个话题有不同的信息。Inmon 将数据仓库定义为
面向主题的、集成的、时变的和非易失性的数据集合,以支持管理层的决策过程
现在我明白了,这只是一种架构形式,并不意味着任何技术。这意味着底层数据可以是任何结构,也可以是 S3 对象存储。此外,Waas 等人。在 On-Demand ELT Architecture for Right-Time BI: Extending the Vision 中 提出了一个具有 ELT 集成数据流程的数据仓库。
当谈到数据湖时,我发现了以下定义
可扩展的存储库,以原始格式(“原样”)保存大量原始数据,直到需要它,加上可以在不影响数据结构的情况下摄取数据的处理系统(引擎)
取自数据湖治理。
现在数据仓库可以成为更严格的数据湖吗?有一种说法是数据仓库必须使用 ETL,但根据 Inmon 的说法,确定不包括对数据转换的任何限制?如果数据集成可以是 ELT 并且转换是敏捷的,例如它可以很容易地扩展。数据仓库看起来非常像数据湖。
我的假设是正确的还是从一个倾斜的角度来看这个。