问题标签 [datamart]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sql-server - SQL Server 只读辅助副本(或镜像数据库)需要完整恢复模式
我们使用可用性组 (SQL Server 2017) 拥有生产数据库的只读副本。要求是将两者的恢复模型设置为完全。
这是一个先决条件,有什么理由吗?我知道主数据库应该有一个完整的恢复模式来复制更改,但是为什么它的只读副本需要它呢?
我做了一些研究,发现数据库镜像也需要完全恢复模型。
我们遇到的问题是我们在数百万行中有一些查询填满了 tempDB 并且我们的 DBA 抱怨。我认为将只读副本切换到简单的恢复模型(因为我们不需要或使用副本实例上的还原时间点)可以解决问题,但显然这是不可能的。
有人可以解释要求或提出解决方法吗?
data-warehouse - 如何整合各种数据集市?
我最近加入了一家医疗保健公司,他们对每种类型的疾病都有单独的数据集市。假设我有三个不同的 DM,如下所示:
- 艾滋病病毒
- 肝细胞癌
- 呼吸
我将如何继续将这些集成到一个数据仓库中?
根据我的阅读,这是一个 Kimball Aprroach。我应该寻找相似的维度并尝试在此基础上进行构建。
还有其他建议吗?
sql-server - 数据仓库或孤岛数据集市
目前我们有 12 个不同的数据库,其中 7 个是维度的。我们是一个以知识为基础的非营利组织,我们拥有基于该人所患疾病种类的数据库。
例如。我们的数据库看起来像
- 艾滋病病毒
- 丙型肝炎
- 脑膜炎
等等...
其中每一个都将包含带有表格的数据,例如:
病人
样本(血样)
地点
诊断
性别
提供者
我们不跟踪花费了多少钱,因为我们只跟踪 +ve 和 -ve 样本。
现在,高层管理人员提出了一个问题,即我们应该从孤岛数据集市构建一个数据仓库。
但是,业务用户从来没有问过他们在哪里需要来自两个不同数据库的数据。如果用户没有考虑过,我们还需要 DW 吗?
我想到的更多问题是:
- 每个数据集市的粒度是多少?
- 哪个维度可以作为一致维度?
- ETL 将如何流动?
- 在所有 DM 中实现单一版本的真相?
我只是主动了解什么可以解决我们所处的情况。感谢任何帮助。
谢谢
data-modeling - 快速变化的维度
最近,我遇到了Rapidly Changing Dimensions
(迷你尺寸)的概念。
我了解从主维度表中删除快速变化的属性并将其放入junk dimension
(具有这些属性中值的所有可能组合的部分。这个垃圾维度将通过中间“ bridge-table
”连接到父维度表( mini 维度),它将包含父维度键和垃圾维度surrogate key
(以及开始和结束日期)。
但是,我无法理解它是如何在现实生活中实现的。
那么,假设一个 RCD 属性发生了变化,那么迷你维度(或父维度)中的记录是否会使用来自 junk dim 的新 SK 进行更新?如果是,那么我们如何在这种情况下跟踪历史,因为我们正在破坏性地更新存在于迷你维度值中的相同记录?
或者,如果在包含新 junk dim 记录的 sk 的迷你维度(如 SCD-2)中创建“新”记录,那么我们再次遇到迷你维度大小随时间增加的相同问题。此外,事实是只保留父 dim 的 ik 还是同时保留父 dim 和 junk dim sks 的 ik?
任何人都可以用一个例子澄清一下吗?
假设 DW 模型中有 4 个表:
1. PAT_DIM 是父维度
2. PAT_JNK_DIM 是包含 RCD 属性的垃圾维度
3. PAT_MINI_DIM 是 1 和 2 之间的 mini-dim 桥表(上图)。
鉴于上述示例,任何人都可以帮助我了解如何在现实世界场景中建模快速变化的维度 (RCD)。数据仓库中的 RCD 表是如何相互连接的。
data-modeling - 如何在数据仓库中组织数据集市
我正在为我的公司建立一个新的企业数据仓库,使用 Kimball 方法(即数据集市的集合)。我想知道组织我的数据集市的最佳做法(或通常做法)。
1) 每个数据集市是否应该是 EDW 服务器上的单独数据库?或者,每个数据集市应该是单个数据库的模式吗?
2) 对于一致性维度(即适用于 2 个以上数据集市/主题领域/业务流程的维度),它们是否应该存在于单独的模式或数据库中?或者,因为我们不会事先知道哪些维度将被符合(因为我们一次要构建一个数据集市),我们是否应该简单地在我们的企业总线矩阵(Excel 文件)中识别符合的维度并且不努力进行隔离他们在EDW?
3)
a) 是否应该在 EDW 中确定事实表和维度表?例如,由于我将维护将与自助 BI 用户共享的每个星型模式的图表,因此通过某种方法识别数据库中的事实表是否有任何价值,比如在表名前加上“事实”?
b) 如果应该在 EDW 中识别事实和维度表,那么识别机制应该是什么?应该通过表名前缀吗?是否应该通过将表组织成单独的“事实”和“维度”模式?
sql - 获取空间事实表的完整钻取
我有一个事务事实表和产品、时间和位置作为维度表。这个事实表是稀疏的,所以如果 1 月份没有披萨售出,那么事实表中就没有披萨的记录。
当我按不在结果中的比萨的产品汇总结果向下钻取时。但我希望它具有 0 个值作为units_sold = 0。
一种解决方案是使用左外连接将产品表连接到事实表。然后我可以得到想要的结果。
但是当我使用另一个维度(例如位置或时间)进行切割时,结果中又缺少这些产品。
外连接为其他维度的外键提供空列,因此 WHERE 子句将再次删除它们。
我该如何解决这个问题?(我使用 ROLAP)
正如一些人回答的那样,使用连接条件是一个好主意。但我需要更通用的解决方案。
例如,
表格1
我想逐年统计出生于 1950 年至 1953 年并死于 2006 年至 2008 年的人数。
喜欢
我们是否可以通过适当地使用连接条件和 where 条件来处理这种情况。
sql-server - 如何在数据集中查找度量
所以,我在这里有这个数据集:https ://www.kaggle.com/johnolafenwa/us-census-data#adult-training.csv
我是数据仓库的新手。我了解什么是度量,但我不确定是什么证明自己是事实表的度量?在这个数据集中,哪些列可以作为度量?
我所看到的方式是措施之类Count()
的Avg()
。
database - 数据库、数据集市、数据仓库、数据湖
寻找高层之间的差异/比较
- 数据库
- 数据集市(自上而下的方法)
- 数据仓库
- 数据湖
当没有具体情况时,请使用相对比较。
ssis - 事实表核对或验证
在数据仓库项目中,如何验证通过 SSIS ETL 加载在数据仓库数据库中加载的事实表与我的暂存表是否正确,以便以后不会有不正确的报告?
netezza - 是否有针对 Netezza(Toad 数据点)的查询以查找存在特定字段名称的所有表
我有以下查询,当搜索包含我在 Oracle 数据库中查找的特定字段名称的表时,它可以完美运行
但是,当使用 Toad 数据点工具时,它在 Netezza (Data Mart) 中不起作用。有人可以让我知道是否有任何类似于下面的查询可以在 Netezza 数据集市环境中使用。