我有一个包含一些用户位置信息的大数据文件。格式如下图:
User TimeStamp Lat Long
A 2013-03-01 19:55:00 45.4565 65.6783
A 2013-03-01 01:40:00 46.3121 -12.3456
A 2013-03-02 11:25:00 23.1234 -85.3456
A 2013-03-05 05:00:00 15.4565 32.1234
......
C 2013-03-01 19:55:00 44.4565 35.6783
C 2013-03-03 11:20:00 42.3121 -22.3456
C 2013-03-03 11:25:00 42.3121 -22.3456
C 2013-03-03 11:30:00 16.4565 22.1234
C 2013-03-03 11:50:00 42.3121 -22.3456
C 2013-03-03 11:55:00 19.4565 -25.1234
......
时间戳使得每行代表 5 分钟间隔内的一个位置。该数据为期一周。
现在,我想做的是获得一个用户在整个一周期间每天在每个位置花费的时间的简单分布(直方图)。因此,每个用户每天在每个位置花费的时间为 0 小时到 24 小时。
第二件事与上述类似,但我不会考虑一个用户每天的总时间,而只会考虑连续的时间花费。例如,对于用户 C,我会将第 2 行和第 3 行一起视为 10 分钟的时间段,但他回到同一个地方的第 5 行将是单独的 5 分钟时间段。
我将如何在 python 中执行此操作?我是这里的新手,有点卡在这里。我想我可以把时间戳分成天、小时、分钟和秒,每天都会得到这些计数。但在那之后我迷路了。