sql - SQL/SSIS DataWareHouse 事实表加载，最佳实践？

Question

我正在 SQL 2008/SSIS 中构建我的第一个数据仓库，并且正在寻找一些关于加载事实表的最佳实践。

目前在我的 DW 中，我有大约 20 个属于 1 类 SCD 的维度（办公室、员工、产品、客户等）。在我的 dw 结构中，我已经应用了一些东西：

无 Nulls（在暂存期间替换为文本的空白或数字的 0）
每个维度中填充的未知关键成员（SK ID 0）
UPSERT 用于从舞台到生产台的 SCD 类型 1 装载
SELECT DISTINCT 加载我的维度

在我的事实加载 SSIS 项目中，我加载维度的当前方法是对每个 DIM 进行多次查找 (20+)，然后用数据填充 FACT 表。

对于我的查找，我设置：

全缓存
忽略“没有匹配条目”的失败
每个 SK 使用“ISNULL(surrogate_idkey) ? 0 : surrogate_idkey”派生转换，这样如果查找失败，它们将默认为 SK ID 0（未知成员）。
我的一些维度查找有多个业务键

这是最好的方法吗？附上的图片有助于我上面的描述。

在此处输入图像描述

score 5 · Accepted Answer

看起来不错。如果您开始遇到性能问题，有一些选项，但如果这是稳定的（在数据加载时间窗口内完成，源系统没有耗尽资源等），那么我认为没有理由改变。

一些需要关注的潜在问题...

如果您的尺寸增加，拥有 20 多个全缓存查找转换可能会造成问题...由于 SSIS 系统上的内存限制...但由于它们是 1 类，我不会担心。
全缓存查找“水合”预执行...拥有 20 多个可能会减慢您的速度

一个常见的替代方法（对上面的内容）是从源系统中提取事实表数据并将其放置在暂存区域中，然后通过单个 SQL 语句进行维度键查找。有些甚至专门为此目的在暂存区域中保留了一组维度键映射表。这减少了源系统上的锁定/阻塞......如果您每次加载都有大量数据，并且在您将数据吸出并通过那些 20 多个查找转换运行它时必须阻塞源系统。

当您拥有大量数据、大维度、复杂的键映射（通常由于多个源系统）和较短的数据加载时间窗口时，拥有良好的暂存区策略变得更加重要。

sql - SQL/SSIS DataWareHouse 事实表加载，最佳实践？

1 回答 1

Related

Reference