6

我有一个用于 IOT 指标(时间序列数据)的聚集列存储索引表。它包含超过 10 亿行,结构如下:

CREATE TABLE [dbo].[Data](
[DeviceId] [bigint] NOT NULL,
[MetricId] [smallint] NOT NULL,
[TimeStamp] [datetime2](2) NOT NULL,
[Value] [real] NOT NULL
)

CREATE CLUSTERED INDEX [PK_Data] ON [dbo].[Data] ([TimeStamp],[DeviceId],[MetricId]) --WITH (DROP_EXISTING = ON)
CREATE CLUSTERED COLUMNSTORE INDEX [PK_Data] ON [dbo].[Data] WITH (DROP_EXISTING = ON, MAXDOP = 1, DATA_COMPRESSION = COLUMNSTORE_ARCHIVE)

从 2008 年到现在,有大约 10,000 个不同的 DeviceId 值和时间戳。针对该表的典型查询如下所示:

SET STATISTICS TIME, IO ON
SELECT
    [DeviceId]
    ,[MetricId]
    ,DATEADD(hh, DATEDIFF(day, '2005-01-01', [TimeStamp]), '2005-01-01') As [Date]
    ,MIN([Value]) as [Min]
    ,MAX([Value]) as [Max]
    ,AVG([Value]) as [Avg]
    ,SUM([Value]) as [Sum]
    ,COUNT([Value]) as [Count]
FROM
    [dbo].[Data]
WHERE
    [DeviceId] = 6077129891325167032
    AND [MetricId] = 1000
    AND [TimeStamp] BETWEEN '2017-07-01' AND '2017-07-30'
GROUP BY
    [DeviceId]
    ,[MetricId]
    ,DATEDIFF(day, '2005-01-01', [TimeStamp])
ORDER BY
    [DeviceId]
    ,[MetricId]
    ,DATEDIFF(day, '2005-01-01', [TimeStamp])

当我执行此查询时,我会得到以下性能指标:

因为目前像上面所说的查询会读取太多的段,我相信:

Table 'Data'. Scan count 2, logical reads 0, physical reads 0, read-ahead reads 0, lob logical reads 5257, lob physical reads 9, lob read-ahead reads 4000.
Table 'Data'. Segment reads 11, segment skipped 764.

查询计划: 查询计划

我相信这没有得到很好的优化,因为读取了 11 个段以仅检索 10 亿个源行中的 212 个(在分组/聚合之前)

然后我运行 Niko Neugebauer 的出色脚本来验证我们的设置和列存储对齐https://github.com/NikoNeugebauer/CISL/blob/master/Azure/alignment.sql,我在重建列存储聚集索引后得到了这个结果:

列存储对齐

MetricId 和 TimeStamp 列的最佳对齐分数为 100%。我们如何确保 DeviceId 列也很好地对齐?我在初始聚集(行存储)索引中使用了列顺序,这是可以优化的地方吗?

4

2 回答 2

9

通过 DeviceId 对齐表的关键解决方案是在表上构建一个聚集的行存储索引,然后在其上构建一个 MAXDOP = 1 的聚集列存储索引(为了不引入在使用多个核心运行索引构建时发生的任何重叠)。所以可能的代码看起来像这样:

CREATE CLUSTERED INDEX [PK_Data] ON [dbo].[Data] ([DeviceId],[TimeStamp],[MetricId]) --WITH (DROP_EXISTING = ON)
CREATE CLUSTERED COLUMNSTORE INDEX [PK_Data] ON [dbo].[Data] WITH (DROP_EXISTING = ON, MAXDOP = 1, DATA_COMPRESSION = COLUMNSTORE_ARCHIVE)

另一种可能性是在 CISL 中完成这一切,通过准备然后执行对齐功能:

insert into dbo.cstore_Clustering( TableName, Partition, ColumnName )
    VALUES ('[dbo].[Data]', 1, 'DeviceId' );

虽然这仅适用于 1 个分区,但是一旦您进入正在使用的数字,您应该考虑对您的表进行分区。设置好之后就可以开始执行dbo.cstore_doAlignment,它会自动重新对齐并优化你的表。(如果您愿意,您将有一些参数来配置优化的阈值)

最好的问候,尼科

于 2017-08-07T10:24:02.123 回答
0

当创建聚集列存储的 Max dop 设置为 1 时,将有效地对您的记录进行排序,但是对于具有 10 亿行的表,此 max dop 1 将无济于事。最好用任何日期列对表进行分区,然后创建一个最大 dop 大于 1 或 0 的聚集列存储索引。但在这种情况下,不能保证排序,但聚集列存储索引会执行该段有效消除。应该明确指出,不要通过在表中保留任何其他非聚集索引来删除或创建聚集列存储索引,这将影响你的聚集列存储索引创建/删除性能。如果通过保留其他索引来删除聚集列存储索引,SQL 服务器将对其他索引执行大量工作。

于 2019-07-31T06:23:58.520 回答