google-bigquery - 在从日志条目创建的会话表中查找并发用户

Question

我们正在探索使用 Bigquery 来存储和分析数以亿计的代表用户会话的日志条目。源原始日志条目包含“连接”日志类型和“断开”日志类型。

我们可以选择在将日志提取到 bigquery 之前对其进行处理，以便每个会话有一个条目，其中包含会话开始 TIMESTAMP 和“持续时间”值，或者单独插入每个日志条目并在分析阶段计算会话时间. 让我们想象一下我们的表模式是这样的：

sessionStartTime: TIMESTAMP,
clientId: STRING,
duration: INTEGER

或者（在我们为每个会话存储两个日志条目的情况下：一个连接和一个断开连接）：

time: TIMESTAMP,
type: INTEGER, //enum, 0 for connect, 1 for disconnect
clientId: STRING

我们的问题是我们找不到使用 bigquery 获取并发用户的方法：理想情况下，我们将能够编写一个查询，通过时间戳“桶”（假设每分钟）对会话表进行分区，并执行一个查询，该查询将为我们提供每个并发用户分钟在一定的时间范围内。

考虑与日志条目相关的并发的简单方法是，在任何时候使用函数 f(t) = x0 + connected(t) - disconnects(t) 计算它们，其中 x0 是初始并发用户数（在时间 t0），并且 t 是“时间戳”桶（在此示例中以分钟为单位）。

有人可以推荐一种方法吗？

谢谢！

score 0 · Accepted Answer

感谢您提供样本数据！（可在https://bigquery.cloud.google.com/table/imgdge:sopub.sessions获得）

我会接受您的提议：“我们可以选择在将日志提取到 bigquery 之前对其进行处理，以便每个会话都有一个条目，其中包含会话开始 TIMESTAMP 和“持续时间”值”。这一次，我将使用 BigQuery 进行处理，并将结果保留在我自己的表中：

SELECT u, start, MIN(end) end FROM (
SELECT a.f0_ u, a.time start, b.time end
FROM [imgdge:sopub.sessions] a
JOIN EACH [imgdge:sopub.sessions] b
ON a.f0_ = b.f0_
WHERE a.type = 'connect'
AND b.type='disconnect'
AND a.time < b.time
)
GROUP BY 1, 2

这给了我 819,321 行。对于 BigQuery 来说不是一个很大的数字，但由于我们要组合它，它可能会爆炸。我们将限制计算并发会话的日期范围以保持正常。我将此查询的结果保存到 [fh-bigquery:public_dump.imgdge_sopub_sessions_startend]。

一旦我有了开始和结束时间的所有会话，我就可以找到每个有趣的瞬间有多少并发会话。你说的分分钟？

所有有趣的分钟恰好是：

SELECT SEC_TO_TIMESTAMP(FLOOR(TIMESTAMP_TO_SEC(time)/60)*60) time
FROM [imgdge:sopub.sessions]
GROUP BY 1

现在让我们将这个有趣的时间列表与我的新表中的所有会话结合起来。对于每一分钟，我们将计算在此之前开始并在此之后结束的所有会话：

SELECT time, COUNT(*) concurrent
FROM (
 SELECT u, start, end, 99 x
 FROM [fh-bigquery:public_dump.imgdge_sopub_sessions_startend]
 WHERE start < '2013-09-30 00:00:00'
) a
JOIN
(
 SELECT SEC_TO_TIMESTAMP(FLOOR(TIMESTAMP_TO_SEC(time)/60)*60) time, 99 x FROM [imgdge:sopub.sessions] GROUP BY 1) b
 ON a.x = b.x
 WHERE b.time < a.end
AND b.time >= a.start
GROUP BY 1

注意99 x. 它可以是任何数字，我只是一直使用它来生成所有会话 * 的组合。这种组合游戏的会话太多，所以我用WHERE start < '2013-09-30 00:00:00'.

这就是您可以计算并发用户的方式。

score 0 · Accepted Answer

你能代替 sessionStartTime 得到 sessionEndTime（或者只是添加持续时间+sessionStartTime）吗？如果你能做到这一点，就可以做出这样的事情。它并不完美，但它会给你一些相关的数据。

SELECT AVG(perMinute) as avgUsersMin FROM
(
    SELECT COUNT(distinct clientId, 1000000) as perMinute, YEAR(sessionEndTime) as y,
    MONTH(sessionEndTime) as m, DAY(sessionEndTime) as d, HOUR(sessionEndTime) as h, MINUTE(sessionEndTime) as mn FROM [MyProject:MyTable]
    WHERE sessionEndTime BETWEEN someDate AND someOtherDate
    GROUP BY y,m,d,h,mn
);

google-bigquery - 在从日志条目创建的会话表中查找并发用户

2 回答 2

Related

Reference