问题标签 [datamart]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
8 回答
54288 浏览

data-warehouse - Datamart vs.reporting Cube,有什么区别?

这些术语到处都在使用,我不知道清晰的定义。我很确定我知道什么是数据集市。我还使用 Business Objects 和 Cognos 等工具创建了报告多维数据集。

也有人告诉我,数据集市不仅仅是多维数据集的集合。

我也有人告诉我,数据集市是一个报告立方体,仅此而已。

你理解的区别是什么?

0 投票
2 回答
1657 浏览

database - 您如何验证数据集市中的数据是否正确?

我正在研究一个数据仓库,我试图弄清楚如何最好地验证来自我们的数据清理(规范化)数据库的数据是否正确地进入我们的数据集市。我已经进行了一些搜索,但到目前为止的结果更多地涉及确保诸如约束之类的事情以及您需要在 ETL 过程中进行数据验证(例如日期有效等)。维度非常简单,因为我可以轻松地利用主键或编写一个非常简单且可验证的查询来获取数据。事实表更复杂。

有什么想法吗?我们试图让主题导出变得非常容易,以运行几个查询,查看来自数据清理数据库和数据集市的一些数据,并直观地比较两者以确保它们是正确的。

0 投票
1 回答
1455 浏览

sql-server - 加载维度表 - 方法

最近我一直在做一个项目,需要从 EDW 表中填充 Dim 表。

EDW 表属于 II 类,它确实保留了历史数据。在加载 Dim Table 时,其源可能是多个 EDW 表,也可能是具有多级透视(在属性上)的单个表。

平均值:将有 10 条记录 - 每个属性一个,需要在 domain_code 上进行旋转以在 Dim 中创建单行。在这 10 条记录中,会有一些属性具有相同的 domain_code 但具有不同的 sub_domain_code,这需要在子域代码上进一步旋转。

前任:

如果我得到域代码:01,02, 03 => 这是域代码的直接支点,我也会有域代码:10,子域代码/版本为 2006,2007,2008,2009

这意味着我需要将具有上述属性的源表拆分为两个 => 一个用于域代码,另一个用于 domain_code + 版本。

到目前为止,一切都很好。

在加载 Dim Table 时:

根据Dimensions的设计规范(最初由第三方编写),他们想要的是:

对于 EDW(属性)中的每一个更改,它应该组合所有相关记录(对于该 NK)意味着新的记录与其他当前的属性值 => 处理它们以创建新的暗淡记录并插入它。

这意味着如果单个提取包含更新的 100 条记录(每个 NK 一条),它应该组合 100 + (100*9) 条记录来插入/更新暗表。这种方法有多好。

我尝试做的其他方法是查找该 NK 的暗表,获取最近记录的值(未更改的属性)并将其插入并更新当前记录。

在源端为一个属性更改组装记录或查看暗表的最近记录并处理它的更好方法是什么。

如果这没有意义,想进一步阐述。

谢谢

这是桌子的模型

替代文字 http://img96.imageshack.us/img96/1203/modelzp.jpg

0 投票
2 回答
1046 浏览

sql-server - 在 Microsoft 环境中创建内部营销活动数据库的建议?

我想创建一个内部解决方案来存储营销细分、列表、活动和通信数据。现在没有什么是集中/标准化的。数据位于各种 SQL 服务器、Access 数据库和 Excel 电子表格中。在报告/跟踪方面真的很痛苦。

我在 Microsoft SQL Server 环境中,可以访问:

  • 微软访问
  • Microsoft SQL Server 管理工作室
  • 微软商业智能开发工作室

在我的环境中,安全性和合规性非常严格。购买第三方软件包似乎不是一种选择。我可能会创建一个 SQL Server 沙箱环境供我使用。

我很好奇你会推荐什么建议以及为什么。我需要考虑所有方面,包括现有的数据检索/解析(有些是持续的)、将数据导入新的营销数据集市和报告。可能需要某种 GUI,因为目前没有用于跟踪/分类大部分数据的 GUI。另一个人可能需要帮助进行常规进口,以帮助分散工作量。

谢谢。

0 投票
4 回答
213 浏览

sql - 不同列中的大量重复 sum(x) 是否会使 Select 变慢?

我有一张非常大的桌子,有几十列和很多行。让我们将此表称为 FT。每天我都会运行一个脚本,从 FT 表中读取数据,执行一些计算,然后更新一个较小的表(表 FA),用于生成报告。

更新 FA 的查询类似于:

由于我多次使用 sum(x),如果我创建一个包含 sum(x)、sum(y) 和 sum(z) 的临时表并使用它来更新我的 FA 表会更快吗?

0 投票
1 回答
1112 浏览

olap - 这是 BI 工作流程的正确想法吗?

我是商业智能的新手。

我刚刚被一家公司雇用,以完成他们的网络解决方案,实施 BI 模块。经过大量阅读,我想我可以了解 BI 流程是什么样的,您会发现附上我对 BI 流程的想法。

你能告诉我这是否是对所有工作流程的正确看法吗?如果不是请纠正我。另一个问题,我看不到数据挖掘在模式中的位置,如果需要我应该在哪里使用它?

非常感谢,替代文字

0 投票
3 回答
2971 浏览

sql-server - 从多个外部系统构建数据集市的最佳方式?

我正处于为邮件/电子邮件/SMS 联系信息和历史构建 SQL Server DataMart 的计划阶段。每条数据都位于不同的外部系统中。因此,电子邮件地址没有帐号,短信电话号码没有电子邮件地址等。换句话说,没有共享的主键。一些数据重叠,但除了在出现重复时保留最完整的版本外,我无能为力。

是否有使用此数据构建 DataMart 的最佳实践?为每个外部键创建一个包含一列的键表是一种可接受的做法吗?然后,可以分配一个唯一的主 ID 以将其绑定到其他 DataMart 表。

寻找我可能还没有想到的方法的想法/建议。

谢谢。

0 投票
1 回答
2146 浏览

database-design - OLTP 应用程序的业务报告

我们有一个使用 Oracle 数据库 10g 企业版的 OLTP 应用程序,并计划构建一个业务报告层来满足以下需求。

  • 屏蔽当前 OLTP 数据库设计的复杂性
  • 提高当前 OLTP 报告的查询性能
  • 提供对其他应用程序的只读访问
  • 允许业务用户执行临时报告

我们正在考虑的解决方案是在当前 OLTP 上使用 Oracle 物化视图 (MV) 创建一个数据库缓存层。MV 将被非规范化并设计用于报告。MV 日志将使用增量刷新同步对 MV 的更改。

我的问题是,

  1. 这种方法有意义吗(MV)?有没有人使用 MV 来构建 OLTP 报告解决方案?
  2. 这种方法(MV)的缺点是什么?
  3. 如何使用 Oracle CDC 和表以及执行同步的过程。
  4. 还有其他方法吗?

谢谢你,雪莉

0 投票
4 回答
2287 浏览

python - 将数据从 DB2 DB 传输到 greenplum DB

我的公司已决定使用 [Greenplum] 实施数据集市,我的任务是弄清楚如何继续进行。从现有 [DB2] DB 传输到 Greenplum DB 的数据量大概是 2 TB。

我想知道:1)Greenplum DB 是否与 vanilla [PostgresSQL] 相同?(我在 Postgres AS 8.3 上工作过) 2)是否有任何(免费)工具可用于此任务(提取和导入) 3)我对 Python 有一些了解。在合理的时间内做到这一点是否可行,甚至容易?

我不知道该怎么做。任何建议、提示和建议都将受到欢迎。

0 投票
1 回答
1403 浏览

report - 我们必须使用事实表进行报告吗?

我正在建立一个用于报告目的的数据集市。我是这个领域的新手,正在寻求帮助。

我有一个事实表和两个维度表。事实表只有3个字段,它的主键和外键引用两个维度表。这两个维度表包含与 1) 电话号码和 2) 分机号码相关的数据。(我不能合并这些维度表,因为它们有不同的信息)

如您所见,我的事实表没有任何定量列。

我想生成一个显示电话号码和相应分机的报告。

我可以通过对两个维度表执行连接来获取此信息。

所以我的问题是我必须为报告使用事实表吗?即我是否应该首先从电话号码表中获取密钥,在事实表上执行连接,获取分机密钥并在分机表上执行连接?

或者

只需连接两个维度表即可生成报告,因为在这种情况下可能吗?

我们必须涉及事实表吗?

谢谢阅读。

任何帮助表示赞赏。