4

我试图了解 OLAP、OLTP、数据挖掘、分析等是什么,我觉得我对其中一些概念的理解仍然有点模糊。有关这些主题的信息往往在互联网上以非常复杂的方式进行解释。


我觉得这样的问题可能会被关闭,因为它是一个非常广泛的问题,所以我将尝试将其缩小为两个问题:

问题一:

经过研究,我对这些概念了解以下内容,是否正确?

  • 分析正在分解复杂的东西,以更好地了解内部运作。
  • 分析是对需要大量数学和统计信息的信息的预测分析。
  • 有许多类型的数据库,但它们要么是 OLTP(事务),要么是 OLAP(分析)。
  • OLTP 数据库使用 ER 图,因此更容易更新,因为它们是规范化的形式。
  • 相比之下,OLAP 使用非规范化星型模式,因此更易于查询
  • OLAP 用于预测分析,OLTP 通常用于更实际的情况,因为没有冗余。
  • 数据仓库是一种 OLAP 数据库,通常由多个其他数据库组成。
  • 数据挖掘是一种用于分析的工具,您可以在其中使用计算机软件来找出数据之间的关系,以便您可以预测事物(例如客户行为)。

问题2:

我对分析和分析之间的区别特别困惑。他们说分析是多维分析,但这是什么意思?

4

2 回答 2

11

我将尝试从金字塔的顶部向您解释:

商业智能(您没有提到的)是 IT 中的术语,它代表一个复杂的系统,并从数据中提供有关公司的有用信息。

因此,BI 系统的目标是:干净、准确和有意义的信息。干净意味着没有技术问题(缺少密钥、不完整的数据等)。准确意味着准确 - BI 系统也被用作生产数据库的故障检查器(逻辑故障 - 即发票账单太高,或使用了不活跃的合作伙伴等)。它是通过规则完成的。有意义很难解释,但用简单的英语,它就是你想要的所有数据(甚至是上次会议的 excel 表)。

所以,BI系统有后端:它是数据仓库。 DWH 只不过是一个数据库(实例,而不是软件)。它可以存储在 RDBMS、分析数据库(列或文档存储类型)或 NoSQL 数据库中。

数据仓库通常用于我上面解释的整个数据库。可能有许多数据集市(如果使用 Kimball 模型) - 更常见的是,或者称为企业数据仓库的第 3 规范化形式(Inmon 模型)的关系系统。

数据集市是 DWH 中相关的表(星型模式、雪花模式)。事实表(非规范化形式的业务流程)和维度表。

每个数据集市代表一个业务流程。示例:DWH 有 3 个数据集市。一是零售,二是出口,三是进口。在零售中,您可以按 SKU、日期、商店、城市等(维度)查看总销售额、销售数量、进口价格、利润(度量)。

在 DWH中加载数据称为ETL(提取、转换、加载)。

  1. 从多个来源(ERP 数据库、CRM 数据库、excel 文件、Web 服务...)中提取数据

  2. 转换数据(清理数据、连接来自不同来源的数据、匹配键、挖掘数据

  3. 加载数据(在特定数据集市中加载转换后的数据)

因注释而编辑: ETL 流程通常是使用 ETL 工具创建的,或者使用某些编程语言(python、c# ect)和 API 手动创建。

ETL 过程是一组相关的 SQL、过程、脚本和规则,分为 3 个部分(见上图),由元数据控制。它要么是预定的(每晚,每隔几个小时),要么是实时的(更改数据捕获、触发器、事务)。

OLTPOLAP数据处理的类型。OLTP 用于事务目的,在数据​​库和软件之间(通常只有一种输入/输出数据方式)。OLAP 用于分析目的,这意味着有多个来源、历史数据、高选择查询性能、挖掘数据。

由于评论而编辑:数据处理是从数据库存储和访问数据的方式。因此,根据您的需要,以不同的方式设置数据库。

图片来自http://datawarehouse4u.info/

在此处输入图像描述

数据挖掘是在大型数据集中发现模式的计算过程。挖掘的数据可以让您更深入地了解业务流程甚至预测。

分析是一个动词,在 BI 世界中意味着从数据中获取询问信息的简单性。多维分析实际上说明了系统如何对数据进行切片(在多维数据集中具有维度)。维基百科说,数据分析是一个检查数据的过程,目的是发现有用的信息。

分析是一个名词,它代表分析过程的结果。

不要对这两个词大惊小怪。

于 2014-09-20T18:22:55.147 回答
-1

我可以告诉您有关数据挖掘的信息,因为我有数据挖掘项目。数据挖掘不是一种工具,它是一种挖掘数据的方法,用于数据挖掘的不同工具是 WEKA、RAPID MINER 等。数据挖掘遵循许多内置在 Weka、Rapid Miner 等工具中的算法。聚类算法、关联算法等算法。我可以给你一个简单的数据挖掘示例。老师在课堂上使用不同的教学方法教授科学科目,如使用黑板、演示、实用。所以现在我们的目标是找到适合学生的方法。然后我们进行调查并听取学生的意见,其中 40 名学生喜欢粉笔板,30 名学生喜欢演示,20 名学生喜欢实用方法。因此,借助这些数据,我们可以制定规则,例如科学科目应该用黑板法教授。

于 2014-09-19T12:40:31.867 回答