1

我想用必要的文献参考来定义数据仓库。

我在维基百科上找到那个wiki

DW 是来自一个或多个不同来源的集成数据的中央存储库。它们将当前和历史数据存储在一个地方,用于为整个企业的员工创建分析报告。

这是否意味着它始终是数据仓库下的关系数据库,或者它可以是任何类型的存储库?

复杂数据仓库的架构框架中,术语数据仓库也用于复杂数据,这意味着视频、图像等,但该论文中仍未定义术语数据仓库。

4

1 回答 1

2

“数据仓库”主要是一个信息系统概念,它描述了一个集中且可信的(例如公司/业务)数据源。

来自 Wikipedia:“DW 是来自一个或多个不同来源的集成数据的中央存储库。它们将当前和历史数据存储在一个地方,用于为整个企业的员工创建分析报告。”

我认为 Kimball Group 是该主题最权威的来源之一,因为他们已经开发了超过 20 年的框架和方法,并且他们也一直在将该框架应用于不同的业务和技术领域并分享成果和结果这个的。

Kimball 的The Data Warehouse Toolkit是有关该主题的参考书之一,它将数据仓库定义为“专门为查询和分析而构建的事务数据的副本”。

Bill Inmon也被认为是数据仓库的先驱之一,并将数据仓库定义为“支持管理层决策过程的面向主题的、集成的、时变的和非易失性的数据集合”

数据仓库不必在关系数据库系统上实现,尽管在 RDBMS 或支持“可连接”表概念的不同数据库系统(例如 Redshift、Presto、Hive)中实现 Kimball 的维度模型是很常见的。

数据架构最近新增了一个可以完美容纳复杂数据类型的概念,即数据湖的概念,它通常是可以处理几乎任何类型的数据类型(例如 S3、HDFS)的数据存储,这些数据类型可以直接分析(例如 MapReduce 在 S3 上的 XML 文件)或处理成不同的格式或数据模型(如维度模型)。

根据您的评论进行编辑

数据仓库和数据湖是服务于不同目的的独立系统,可以/应该是互补的,两者都是更大数据架构的一部分。数据湖作为一个概念,可以只是数据仓库上维度模型的另一个数据源(尽管数据湖的技术实现可以直接查询原始数据)。

您可以将数据湖视为“着陆区”,其中多个系统以“复杂/原始格式”转储数据,例如来自客户支持电话的 MP3 文件、来自 Web 服务器的压缩日志。它的目的是为了历史目的和进一步处理成可以轻松分析/报告的格式,例如从 MP3 文件中提取文本。

数据仓库还聚合来自不同系统的数据,但数据被建模为适合报告的格式(如维度模型),其模型反映了业务/域的流程和事务,并且通常是高度策划的。

想象一下这种情况:如果您使用 Web 服务器日志记录对在线商店的访问,您可以将压缩后的日志(“交易数据”)保存在数据湖中,然后将数据处理成维度模型(像这样),这将是“专门为查询和分析而构建的交易数据副本”,因此业务用户可以轻松地在 Excel 或其他报告工具中探索它。

于 2018-12-07T18:02:44.047 回答