2

我有一个包含多个条目的表。一项由开始日期时间和结束日期时间组成。

我想以这样的方式找到条目集群:

如果一个条目在前一个条目结束之前开始,则两者都是集群的一部分。这是某种重叠问题。

例子:

id      start                    end
1       2007-04-11 15:34:02      2007-05-11 13:09:01
2       2007-06-13 15:42:39      2009-07-21 11:30:00
3       2007-11-26 14:30:02      2007-12-11 14:09:07
4       2008-02-14 08:52:11      2010-02-23 16:00:00

我想要输出

id      start                    end
1       2007-04-11 15:34:02      2007-05-11 13:09:01
2-4     2007-06-13 15:42:39      2010-02-23 16:00:00

我有一个解决方案,它先排序,然后对行号和滞后/领先等进行一些计算。问题是第4行直接在第2行之后的特殊情况,所以我不认识它......

这里的sql有好的解决方案吗?也许我错过了什么?

4

3 回答 3

1

好的,这是递归 cte 的一些解决方案:

CREATE TABLE t
(
    id INT,
    s  DATE,
    e  DATE
);

INSERT INTO t
VALUES (1, '20070411', '20070511'),
       (2, '20070613', '20090721'),
       (3, '20071126', '20071211'),
       (4, '20080214', '20100223');

WITH cte AS (
    SELECT id, s, e, id AS rid, s AS rs, e AS re
    FROM t
    WHERE NOT EXISTS(
            SELECT *
            FROM t ti
            WHERE t.s > ti.s
              AND t.s < ti.e
        )
    UNION ALL
    SELECT t.*, c.rid, c.rs,
       CASE
           WHEN t.e > c.re THEN t.e
           ELSE c.re
           END
    FROM t
    JOIN cte c ON t.s > c.s AND t.s < c.e
)
SELECT min(id) minid,
       max(id) maxid,
       min(rs) startdate,
       max(re) enddate
FROM cte
GROUP BY rid

输出:

minid   maxid   startdate   enddate
1       1       2007-04-11  2007-05-11
2       4       2007-06-13  2010-02-23

小提琴http://sqlfiddle.com/#!6/2d6d3/10

于 2015-04-17T11:49:20.540 回答
0

要回答这个问题,您需要确定哪些时间开始一个新组。然后,在每次开始之前,计算此类开始的数量以定义一个组 - 并按此值聚合。

假设您没有重复的时间,这应该可以设置标志:

select e.*,
       (case when not exists (select 1
                              from entries e2
                              where e2.start < e.start and e2.end > e.start
                             )
             then 1 else 0
        end) as BeginsIsland
from entries e;

假设 SQL Server 2012+ (这可以很容易地适应早期版本,但这更容易编码),以下然后进行累积总和和聚合:

with e as (
      select e.*,
             (case when not exists (select 1
                                    from entries e2
                                    where e2.start < e.start and e2.end > e.start
                                   )
                       then 1 else 0
              end) as BeginIslandFlag
      from entries e
     )
select (case when min(id) = max(id) then cast(max(id) as varchar(255))
             else cast(min(id) as varchar(255)) + '-' + cast(max(id) as varchar(255))
        end) as ids,
       min(start) as start, max(end) as end
from (select e.* sum(BeginIslandFlag) over (order by start) as grp
      from e
     ) e
group by grp;
于 2015-04-17T10:38:45.790 回答
0

尝试这个...

select a.id ,a.start,a.end,b.id,b.start,b.end
from   tab   a
cross join tab b
where  a.start between b.start and b.end
order by a.start, a.end

我们将不得不检查每一行与所有其他行,就像使用循环和内循环一样。为此,我们进行了交叉连接。

然后我们将使用 BETWEEN AND 运算符检查重叠

于 2015-04-17T10:19:10.660 回答