8

如果我们有一个巨大的事实表并想添加一个新维度,我们可以这样做:

BEGIN TRANSACTION

ALTER TABLE [GiantFactTable]
ADD NewDimValueId INT NOT NULL
CONSTRAINT [temp_DF_NewDimValueId] DEFAULT (-1)
WITH VALUES -- table is not actually rebuilt!

ALTER TABLE [GiantFactTable]
WITH NOCHECK
ADD CONSTRAINT [FK_GiantFactTable_NewDimValue]
FOREIGN KEY ([NewDimValueId])
REFERENCES [NewDimValue] ([Id])

-- drop the default constraint, new INSERTs will specify a value for NewDimValueId column
ALTER TABLE [GiantFactTable]
DROP CONSTRAINT [temp_DF_NewDimValueId]

COMMIT TRANSACTION

注意:以上所有操作都只处理表元数据,无论表大小如何,都应该很快。然后我们可以运行一个作业来回填GiantFactTable.NewDimValueId小事务,这样就不会违反 FK。(此时任何插入/更新 - 例如回填操作 - 都由 FK 验证,因为它已启用,但不是“受信任的”)

回填后,我们知道数据是一致的,我的问题是 SQL 引擎如何也变得开明?无需使表脱机。

此命令将使 FK 受信任,但它需要模式修改 (Sch-M) 锁定,并且可能需要数小时(数天?)才能使表脱机:

ALTER TABLE [GiantFactTable]
WITH CHECK CHECK CONSTRAINT [FK_GiantFactTable_NewDimValue]

关于工作负载:表有几百个分区(固定数量),数据一次附加到一个分区(以循环方式),从不删除。还有一个恒定的读取工作负载,它使用集群键一次从一个分区获取(相对较小)范围内的行。一次检查一个分区并使其脱机是可以接受的。但我找不到任何语法来做到这一点。还有其他想法吗?

4

1 回答 1

1

一些想法浮现在脑海中,但它们并不漂亮:

重定向工作负载并离线运行检查约束

  1. 创建一个具有相同结构的新表。
  2. 更改“插入”工作负载以插入新表
  3. 将“读取”工作负载使用的分区中的数据复制到新表(或具有相同结构的第三个表)
  4. 更改“读取”工作负载以使用新表
  5. 运行alter table以检查约束并让它尽可能长时间
  6. 将这两个工作负载更改回主表。
  7. 将新行插入主表
  8. 删除新表

上面的一个变体是在步骤 3 中将相关分区切换到新表。这应该比复制数据更快,但我认为您必须在检查约束后复制(而不仅仅是切换)数据.

将所有数据插入新表

  1. 创建具有相同结构和启用约束的新表
  2. 将“插入”工作负载更改为新表
  3. 将旧表中的所有数据批量复制到新表中,等待完成即可
  4. 将“读取”工作负载更改为新表。如果第 3 步耗时过长,并且“读取”工作负载需要仅插入到新表中的行,则您将不得不手动管理此转换。
  5. 丢弃旧表

使用索引加速约束检查?

我不知道这是否可行,但您可以尝试在外键列上创建一个非聚集索引。还要确保在外键引用的表上的相关唯一键上有一个索引。该alter table命令可能能够使用它们来加速检查(至少通过最小化 IO 与执行全表扫描相比)。当然,可以在线创建索引以避免任何中断。

于 2013-11-04T01:53:39.973 回答