我将尝试从金字塔的顶部向您解释:
商业智能(您没有提到的)是 IT 中的术语,它代表一个复杂的系统,并从数据中提供有关公司的有用信息。
因此,BI 系统的目标是:干净、准确和有意义的信息。干净意味着没有技术问题(缺少密钥、不完整的数据等)。准确意味着准确 - BI 系统也被用作生产数据库的故障检查器(逻辑故障 - 即发票账单太高,或使用了不活跃的合作伙伴等)。它是通过规则完成的。有意义很难解释,但用简单的英语,它就是你想要的所有数据(甚至是上次会议的 excel 表)。
所以,BI系统有后端:它是数据仓库。
DWH 只不过是一个数据库(实例,而不是软件)。它可以存储在 RDBMS、分析数据库(列或文档存储类型)或 NoSQL 数据库中。
数据仓库通常用于我上面解释的整个数据库。可能有许多数据集市(如果使用 Kimball 模型) - 更常见的是,或者称为企业数据仓库的第 3 规范化形式(Inmon 模型)的关系系统。
数据集市是 DWH 中相关的表(星型模式、雪花模式)。事实表(非规范化形式的业务流程)和维度表。
每个数据集市代表一个业务流程。示例:DWH 有 3 个数据集市。一是零售,二是出口,三是进口。在零售中,您可以按 SKU、日期、商店、城市等(维度)查看总销售额、销售数量、进口价格、利润(度量)。
在 DWH中加载数据称为ETL(提取、转换、加载)。
从多个来源(ERP 数据库、CRM 数据库、excel 文件、Web 服务...)中提取数据
转换数据(清理数据、连接来自不同来源的数据、匹配键、挖掘数据)
加载数据(在特定数据集市中加载转换后的数据)
因注释而编辑: ETL 流程通常是使用 ETL 工具创建的,或者使用某些编程语言(python、c# ect)和 API 手动创建。
ETL 过程是一组相关的 SQL、过程、脚本和规则,分为 3 个部分(见上图),由元数据控制。它要么是预定的(每晚,每隔几个小时),要么是实时的(更改数据捕获、触发器、事务)。
OLTP和OLAP是数据处理的类型。OLTP 用于事务目的,在数据库和软件之间(通常只有一种输入/输出数据方式)。OLAP 用于分析目的,这意味着有多个来源、历史数据、高选择查询性能、挖掘数据。
由于评论而编辑:数据处理是从数据库存储和访问数据的方式。因此,根据您的需要,以不同的方式设置数据库。
图片来自http://datawarehouse4u.info/:
数据挖掘是在大型数据集中发现模式的计算过程。挖掘的数据可以让您更深入地了解业务流程甚至预测。
分析是一个动词,在 BI 世界中意味着从数据中获取询问信息的简单性。多维分析实际上说明了系统如何对数据进行切片(在多维数据集中具有维度)。维基百科说,数据分析是一个检查数据的过程,目的是发现有用的信息。
分析是一个名词,它代表分析过程的结果。
不要对这两个词大惊小怪。