3

我有想要简化的时间序列数据(减少点数,同时让图形保持相同的形状)。例如,如果我有这个数据集:

Time: 1, Value: 5
Time: 6, Value: 5
Time: 11, Value: 5.1
Time: 12, Value: 5
Time: 20, Value: 5.2
Time: 22, Value: 6
Time: 23, Value: 10

容差为 0.5 的简化版本类似于:

Time: 1, Value: 5
Time: 20, Value: 5.2
Time: 22, Value: 6
Time: 23, Value: 10

我知道用于 GIS 数据的 Douglas–Peucker 算法,但我不确定如何将其应用于时间序列数据,因为轴具有不同的单位。如果我能在数据库中完成这一切,那就太棒了。

4

2 回答 2

1

我不知道有一个内置函数。此查询可能会完成这项工作:

WITH x AS (
    SELECT t, val
          ,@(lead(val) OVER w - val) AS delta1
          ,@(lag(val)  OVER w - val) AS delta2
    FROM   tbl
    WINDOW w AS (ORDER BY t)
    ORDER  BY t
    )
SELECT t, val
FROM   x
WHERE  delta1 > 0.2
   OR  delta2 > 0.2
   OR  delta1 IS NULL
   OR  delta2 IS NULL;

我在 CTE 中使用窗口函数lead()lag()绝对值运算符@来计算增量(应该是最快的)。

只有那些至少有一个增量大于0.2(与您的示例匹配的任意阈值)的行才会保留。

delta1第一行和最后一行是ordelta2的特殊情况NULL(没有前导/滞后行)。我们希望在任何情况下都包含这些行,所以我在 final 中添加了 NULL 检查SELECT

产生您要求的结果。


另一个专注于方向变化的变体:

WITH x AS (
    SELECT t, val
          ,@(lead(val) OVER w + lag(val) OVER w - 2*val) AS deviate
    FROM   tbl
    WINDOW w AS (ORDER BY t)
    ORDER  BY t
    )
SELECT t, val, deviate
FROM   x
WHERE  deviate > 0.2
   OR  deviate IS NULL;

这应该更紧密地保持形状。此示例保留行Time: 12, Value: 5并避免您在评论中描述的效果。(您在问题中的示例并未指向这个方向。)

于 2012-05-25T01:23:20.777 回答
1

Ramer Douglas Peucker 会在这里工作——单位应该是个问题。

于 2015-08-08T16:50:45.230 回答