我正在分析一个 Apache 日志文件,并将其导入到 pandas 数据框中。
'65.55.52.118 - - [30/May/2013:06:58:52 -0600]“GET /detailedAddVen.php?refId=7954&uId=2802 HTTP/1.1”200 4514“-”“Mozilla/5.0(兼容;bingbot /2.0; + http://www.bing.com/bingbot.htm )"'
我的数据框:
我想根据 IP、代理和时差将其分组到会话中(如果持续时间大于 30 分钟,它应该是一个新会话)。
通过IP和Agent对数据帧进行分组很容易,但是如何检查这个时间差?希望问题很清楚。
sessions = df.groupby(['IP', 'Agent']).size()
更新: df.index 如下:
<class 'pandas.tseries.index.DatetimeIndex'>
[2013-05-30 06:00:41, ..., 2013-05-30 22:29:14]
Length: 31975, Freq: None, Timezone: None