sql - 查询以计算连续事件之间的平均时间

Question

我的问题是关于如何编写 SQL 查询来计算连续事件之间的平均时间。

我有一张小桌子：

event Name    |    Time

stage 1       |    10:01
stage 2       |    10:03
stage 3       |    10:06
stage 1       |    10:10
stage 2       |    10:15
stage 3       |    10:21
stage 1       |    10:22
stage 2       |    10:23
stage 3       |    10:29

我想构建一个查询，以获取 stage(i) 和 stage(i+1) 之间时间的平均值作为答案。

例如，第 2 阶段和第 3 阶段之间的平均时间为 5：

(3+6+6)/3 =  5

score 15 · Accepted Answer

Aaaaand 带有一点黑魔法：

select a.eventName, b.eventName, AVG(DATEDIFF(MINUTE, a.[Time], b.[Time])) as Average from
     (select *, row_number() over (order by [time]) rn from events) a
join (select *, row_number() over (order by [time]) rn from events) b on (a.rn=b.rn-1)
group by
a.eventName, b.eventName

这将为您提供如下行：

stage3  stage1  2
stage1  stage2  2
stage2  stage3  5

第一列是开始事件，第二列是结束事件。如果在事件 1 之后有事件 3，也会列出。否则，您应该提供一些关于哪个阶段跟随哪个阶段的标准，因此仅在这些之间计算时间。

补充：这应该在 Transact-SQL（MSSQL、Sybase）和 PL/SQL（Oracle、PostgreSQL）上都可以正常工作。但是我还没有测试它，仍然可能存在语法错误。这不适用于任何版本的 MySQL。

score 2 · Accepted Answer

Select Avg(differ) from (
 Select s1.r, s2.r, s2.time - s1.time as differ from (
 Select * From (Select rownum as r, inn.time from table inn order by time) s1
 Join (Select rownum as r, inn.time from table inn order by time) s2
 On mod(s2.r, 3) = 2 and s2.r = s1.r + 1
 Where mod(s1.r, 3) = 1)
);

参数可以随着级数的变化而变化。这目前设置为从 3 阶段过程中找到阶段 1 和 2 之间的平均值。

编辑几个错别字

score 1 · Accepted Answer

你的桌子设计有缺陷。你怎么知道哪个 stage1 和哪个 stage2 相配？如果没有办法做到这一点，我认为您的查询是不可能的。

score 1 · Accepted Answer

你没有说你想要答案的 SQL 风格。这可能意味着您需要 SQL Server 中的代码（在 SO 标记用法中，[sql] 通常 = [sql-server]）。

但是以防万一您（或某些未来的求职者）正在使用 Oracle，这种查询对于分析函数非常简单，在这种情况下是LAG(). 一探究竟：

SQL> select stage_range
  2         , avg(time_diff)/60 as average_time_diff_in_min
  3  from
  4      (
  5          select event_name
  6                 , case when event_name = 'stage 2' then  'stage 1 to 2'
  7                      when event_name = 'stage 3' then  'stage 2 to 3'
  8                      else  '!!!' end as stage_range
  9                 , stage_secs - lag(stage_secs)
 10                              over (order by ts, event_name) as time_diff
 11                 from
 12                     ( select event_name
 13                              , ts
 14                              , to_number(to_char(ts, 'sssss')) as stage_secs
 15                       from timings )
 16      )
 17         where event_name in ('stage 2','stage 3')
 18  group by stage_range
 19  /

STAGE_RANGE  AVERAGE_TIME_DIFF_IN_MIN
------------ ------------------------
stage 1 to 2               2.66666667
stage 2 to 3                        5

SQL>

内部查询中的格式更改是必要的，因为我已将 TIME 列存储为 DATE 数据类型，因此我将其转换为秒以使数学更清晰。另一种解决方案是Day to Second Interval改用数据类型。但这个解决方案实际上是关于LAG().

编辑

在我对这个问题的看法中，我没有明确计算过之前的第 3 阶段和随后的第 1 阶段之间的差异。这是一个需求问题。

score 1 · Accepted Answer

最简单的方法是按时间排序并使用游标 (tsql) 来迭代数据。由于游标是邪恶的，因此建议将按时间排序的数据提取到应用程序代码中并在那里迭代。在 SQL 中可能还有其他方法可以做到这一点，但它们会非常复杂并且依赖于非标准的语言扩展。

score 0 · Accepted Answer

尝试这个

   Select Avg(e.Time - s.Time)
   From Table s
     Join Table e 
         On e.Time = 
             (Select Min(Time)
              From Table
              Where eventname = s.eventname 
                 And time > s.Time)
         And Not Exists 
             (Select * From Table
              Where eventname = s.eventname 
                 And time < s.Time)

对于代表阶段开始的每条记录，此 sql 将其连接到代表结束的记录，获取结束时间和开始时间之间的差值，并对这些差值进行平均。Not Exists 确保连接到结束记录的开始记录的中间结果集仅包含作为 s... 的开始记录，并且第一个连接条件确保只有一个结束记录（具有相同名称的记录和之后的下一个时间值开始时间）加入它......

要在连接之后但在取平均值之前查看中间结果集，请运行以下命令：

   Select s.EventName,
       s.Time Startime, e.Time EndTime, 
       (e.Time - s.Time) Elapsed
   From Table s
     Join Table e 
         On e.Time = 
             (Select Min(Time)
              From Table
              Where eventname = s.eventname 
                 And time > s.Time)
         And Not Exists 
             (Select * From Table
              Where eventname = s.eventname 
                 And time < s.Time)

score 0 · Accepted Answer

WITH    q AS
        (
        SELECT  'stage 1' AS eventname, CAST('2009-01-01 10:01:00' AS DATETIME) AS eventtime
        UNION ALL
        SELECT  'stage 2' AS eventname, CAST('2009-01-01 10:03:00' AS DATETIME) AS eventtime
        UNION ALL
        SELECT  'stage 3' AS eventname, CAST('2009-01-01 10:06:00' AS DATETIME) AS eventtime
        UNION ALL
        SELECT  'stage 1' AS eventname, CAST('2009-01-01 10:10:00' AS DATETIME) AS eventtime
        UNION ALL
        SELECT  'stage 2' AS eventname, CAST('2009-01-01 10:15:00' AS DATETIME) AS eventtime
        UNION ALL
        SELECT  'stage 3' AS eventname, CAST('2009-01-01 10:21:00' AS DATETIME) AS eventtime
        UNION ALL
        SELECT  'stage 1' AS eventname, CAST('2009-01-01 10:22:00' AS DATETIME) AS eventtime
        UNION ALL
        SELECT  'stage 2' AS eventname, CAST('2009-01-01 10:23:00' AS DATETIME) AS eventtime
        UNION ALL
        SELECT  'stage 3' AS eventname, CAST('2009-01-01 10:29:00' AS DATETIME) AS eventtime
        )
SELECT  (
        SELECT  AVG(DATEDIFF(minute, '2009-01-01', eventtime))
        FROM    q
        WHERE   eventname = 'stage 3'
        ) - 
        (
        SELECT  AVG(DATEDIFF(minute, '2009-01-01', eventtime))
        FROM    q
        WHERE   eventname = 'stage 2'
        )

这取决于这样一个事实，即您始终拥有完整的阶段组，并且它们始终以相同的顺序进行（即stage 1then ）stage 2stage 3

score 0 · Accepted Answer

我无法发表评论，但我必须同意 HLGEM。虽然您可以通过提供的数据集来判断，但应该让 OP 意识到，仅依赖一次存在的一组阶段可能过于乐观。


event Name    |    Time

stage 1       |    10:01
stage 2       |    10:03
stage 3       |    10:06
stage 1       |    10:10
stage 2       |    10:15
stage 3       |    10:21
stage 1       |    10:22
stage 2       |    10:23
stage 1       |    10:25     --- new stage 1
stage 2       |    10:28     --- new stage 2
stage 3       |    10:29
stage 3       |    10:34     --- new stage 3

我们不知道环境或创建数据的原因。由 OP 决定表是否正确构建。

Oracle 将使用 Analytics 来处理这个问题。就像Vilx的回答一样。

sql - 查询以计算连续事件之间的平均时间

8 回答 8

Related

Reference