我得到一个点击流,其中包含字段 user_id 、 site_id 、 datetime - 点击的时间戳 会话在 30 分钟的间隔内计算所有点击
如何使用以下输出进行 SQL 查询
user_id site_id session_start_time session_end_time
我得到一个点击流,其中包含字段 user_id 、 site_id 、 datetime - 点击的时间戳 会话在 30 分钟的间隔内计算所有点击
如何使用以下输出进行 SQL 查询
user_id site_id session_start_time session_end_time
好的,假设你得到一些数据,比如
userid, siteid, datetime
1, 1, 2000-01-01 00:30
1, 1, 2000-01-01 01:00
1, 2, 2001-01-01 01:00
1, 2, 2001-01-01 01:30
2, 2, 2002-01-01 02:00
2, 2, 2002-01-01 02:30
并且您希望将上一行的日期作为开始,并将这一行的日期作为结束:
SELECT
userid,
siteid,
LAG(datetime) OVER(PARTITION BY siteid, userid ORDER BY datetime) as starttime, datetime as endtime
FROM
table
userid, siteid, starttime, endtime
1, 1, null, 2000-01-01 00:30
1, 1, 2000-01-01 00:30, 2000-01-01 01:00
1, 2, null, 2001-01-01 01:00
1, 2, 2001-01-01 01:00, 2001-01-01 01:30
2, 2, null, 2002-01-01 02:00
2, 2, 2002-01-01 02:00, 2002-01-01 02:30
特定行 x 中的每个日期将成为下一行 x+1 的开始日期。分区意味着用户和站点 ID 有自己的开始/结束日期。如果这不是故意的,请调整分区
要隐藏空值:
WITH cte AS(
SELECT
userid,
siteid,
LAG(datetime) OVER(PARTITION BY siteid, userid ORDER BY datetime) as starttime, datetime as endtime
FROM
table
)
SELECT * FROM cte WHERE starttime IS NOT NULL