问题标签 [data-warehouse]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
7 回答
19847 浏览

database - 200 亿行/月 - Hbase / Hive / Greenplum / 什么?

我想利用您的智慧为数据仓库系统找到正确的解决方案。这里有一些细节可以更好地理解问题:

数据以星型结构组织,具有一个 BIG 事实和约 15 个维度。
每月 20B 个事实行
10 个维度,百行(有点层次)
5 个维度,数千行
2 个维度,约 200K 行
2 个大维度,50M-100M 行

针对此数据库运行两个典型查询

dimq 中的顶级成员:

针对元组的措施:

问题:

  1. 执行此类查询的最佳平台是什么
  2. 需要什么样的硬件
  3. 它可以托管在哪里(EC2?)


    (请暂时忽略导入和加载问题)

Tnx,
哈盖。

0 投票
8 回答
54288 浏览

data-warehouse - Datamart vs.reporting Cube,有什么区别?

这些术语到处都在使用,我不知道清晰的定义。我很确定我知道什么是数据集市。我还使用 Business Objects 和 Cognos 等工具创建了报告多维数据集。

也有人告诉我,数据集市不仅仅是多维数据集的集合。

我也有人告诉我,数据集市是一个报告立方体,仅此而已。

你理解的区别是什么?

0 投票
5 回答
5910 浏览

sql - 为数据仓库设置 Dim 和 Fact 表

我的任务是为客户创建一个数据仓库。所涉及的表格并没有真正遵循那里的传统示例(产品/订单),所以我需要一些帮助才能开始。客户端本质上是案件的处理中心(类似于法律案件)。每天,都有新的案例被输入到“案例”表下的数据库中。每列都包含一些与案例相关的信息。在处理案例时,将使用与案例相关的事件填充额外的一对多表。这些事件表有很多,示例表可能是:(case-open、case-dept1、case-dept2、case-dept3 等)。这些表中的每一个都有一个映射回“案例”表的 caseid。还涉及一些查找表。

目前,报告需求涉及暴露各个阶段的瓶颈,并且对于流程的某些区域,粒度为小时级别。

我可能在这里问的太多了,但我正在寻找有关如何设置 Dim 和 Fact 表或您可能有的任何其他建议的方向。

0 投票
3 回答
749 浏览

sql - 事实/暗表时间值

我正在设置 Fact 和 Dim 表,并试图找出设置时间值的最佳方法。AdventureworksDW 为 DimTime 表中的每个时间条目使用一个时间键 (UID)。我想知道有什么理由我不应该只使用时间值,即 0106090800 (我的粒度是每小时)?

0 投票
1 回答
749 浏览

data-warehouse - 逆转(或撤消)对仓库事实表的大量负载

目前,我们计划为我们加载的每批事实记录一个“batch id”。这样,我们可以在发现问题时退出负载。

我们是否也应该考虑在维度行上跟踪批次 ID?

似乎维度行有不同的规则。如果我们将它们视为缓慢变化的,并使用保留历史的 SCD 算法之一,那么重新加载实际上并没有多大意义。

典型场景。符合尺寸,处理 SCD。加载事实。完毕。

延期。符合尺寸,处理 SCD。加载事实。发现问题。删除这批事实。解决问题。重新加载事实。完毕。

可能的情景。符合尺寸,处理 SCD。加载事实。发现问题。删除这批事实和维度行。解决问题。符合尺寸,处理 SCD。加载事实。完毕。

跟踪尺寸变化似乎没有多大帮助。关于如何最好地处理数据仓库负载的“撤消”或“回滚”的任何指导?

我们的 ETL 工具完全是本地开发的 Python 应用程序。

0 投票
7 回答
762 浏览

sql - 数据仓库 - 营业时间

我正在开发一个数据仓库,最终需要我根据工作时间创建报告。目前,我的时间维度以小时为单位。我想知道是否应该修改时间维度以包含“营业时间”的位字段,还是应该在分析结束时为其创建某种计算度量?有什么例子会超级壮观吗?

0 投票
1 回答
429 浏览

sql - SQL 多维数据集处理窗口

我有 Dim Tables、Fact Tables、ETL 和一个立方体。我现在希望确保我的多维数据集只保存前 2 个月的数据。这应该通过强制我的事实表只保存 2 个月的数据并执行“完整过程”来完成,还是有办法从我的多维数据集中修剪过时的数据?

0 投票
2 回答
3830 浏览

sql - MDX 计算事件之间的时间

我有一个多维数据集,它从 4 个事实/暗淡表中提取数据。

  1. FactCaseEvents (EventID,CaseID,TimeID)
  2. DimEvents (EventID, EventName)
  3. DimCases (CaseID,StateID,ClientID)
  4. DimTime (TimeID,FullDate)

事件将是:CaseReceived,CaseOpened,CaseClientContacted,CaseClosed

DimTime 每小时保存一个条目。

我想写一个 MDX 语句,它会给我 2 列:“ CaseRecievedToCaseOpenedOver5”和“ CaseClientContactedToCaseClosedOver5

CaseRecievedToCaseOpenedOver5CaseReceived将保存在和之间的时间差超过 5 小时的案例数CaseOpened

我猜 " CaseRecievedToCaseOpenedOver5" 和 " CaseClientContactedToCaseClosedOver5" 将是计算成员,但我需要一些帮助来弄清楚如何创建它们。

提前致谢。

0 投票
1 回答
1143 浏览

sql - Moving a SQL 2000 cube to SQL 2005

I have been tasked with moving a cube which is in SQL 2000 to SQL 2005. It would appear that the Dimensions and Measures are all coming from one table. Is this possible in SQL 2005 or do I need to restructure the data into multiple Dim/Fact tables, and is there any way to easily move a SQL 2000 cube into SQL 2005?

0 投票
1 回答
218 浏览

sql - 是否总是需要创建 Dim 表?

我有一个事实表,其中有一列将保存两个值之一(占用/空置)。是否有必要为此创建一个 Dim 表?