1

我得到一个点击流,其中包含字段 user_id 、 site_id 、 datetime - 点击的时间戳 会话在 30 分钟的间隔内计算所有点击

如何使用以下输出进行 SQL 查询

user_id    site_id    session_start_time    session_end_time
4

1 回答 1

0

好的,假设你得到一些数据,比如

userid, siteid, datetime
1,      1,      2000-01-01 00:30
1,      1,      2000-01-01 01:00
1,      2,      2001-01-01 01:00
1,      2,      2001-01-01 01:30
2,      2,      2002-01-01 02:00
2,      2,      2002-01-01 02:30

并且您希望将上一行的日期作为开始,并将这一行的日期作为结束:

SELECT 
  userid,
  siteid,
  LAG(datetime) OVER(PARTITION BY siteid, userid ORDER BY datetime) as starttime, datetime as endtime 
FROM 
  table

userid, siteid, starttime,        endtime
1,      1,      null,             2000-01-01 00:30
1,      1,      2000-01-01 00:30, 2000-01-01 01:00
1,      2,      null,             2001-01-01 01:00
1,      2,      2001-01-01 01:00, 2001-01-01 01:30
2,      2,      null,             2002-01-01 02:00
2,      2,      2002-01-01 02:00, 2002-01-01 02:30

特定行 x 中的每个日期将成为下一行 x+1 的开始日期。分区意味着用户和站点 ID 有自己的开始/结束日期。如果这不是故意的,请调整分区

要隐藏空值:

WITH cte AS(
 SELECT 
  userid,
  siteid,
  LAG(datetime) OVER(PARTITION BY siteid, userid ORDER BY datetime) as starttime, datetime as endtime 
 FROM 
  table
)
SELECT * FROM cte WHERE starttime IS NOT NULL
于 2019-11-12T23:09:17.087 回答