2

我有一个类似于以下文件的数据集

2013-05-30 06:00:41    173.199.116.171
2013-05-30 06:05:41    61.245.172.14
2013-05-30 06:10:42    74.86.158.106
2013-05-30 06:20:42    61.245.172.14

我想重新采样 20 分钟并获得某个 20 分钟时间段的命中数。(例如,在(06.00.00-06.20.00 或 06.40.00-07.00.00 等)之间。我可以打印命中数整个数据文件如下。

ips = df.groupby('IP').size()

如何获取每 20 分钟插槽的命中数?以下代码仅打印“06:00:00”和“06:20:00”之间的所有 IP。

df_s = df['IP'].resample('20t', how='count')
print df['IP'].between_time('06:00:00', '06:20:00')
4

2 回答 2

2

这是 0.11.1 中可用的新方法(即将推出),提供组过滤机制,感谢@DanAllen

In [49]: df
Out[49]: 
                                  ip
date_time                           
2013-05-30 06:00:41  173.199.116.171
2013-05-30 06:05:41    61.245.172.14
2013-05-30 06:10:42    74.86.158.106
2013-05-30 06:20:42    61.245.172.14

In [50]: df.groupby(pd.TimeGrouper('20min')).filter(lambda x: x.between_time('06:00:00', '06:20:00'))
Out[50]: 
                                  ip
date_time                           
2013-05-30 06:00:41  173.199.116.171
2013-05-30 06:05:41    61.245.172.14
2013-05-30 06:10:42    74.86.158.106
于 2013-06-13T12:50:10.823 回答
1

第一个计算每个 20 分钟时隙中的所有行

In [11]: df1.IP.resample('20t', how='count')  # I usually prefer '20min'
Out[11]:
datetime
2013-05-30 06:00:00    3
2013-05-30 06:20:00    1
dtype: int64

第二个在特定时间之间抓取这些行:

In [12]: df1.IP.between_time('06:00:00', '06:20:00')
Out[12]:
datetime
2013-05-30 06:00:41    173.199.116.171
2013-05-30 06:05:41      61.245.172.14
2013-05-30 06:10:42      74.86.158.106
Name: IP, dtype: object

使用TimeGrouper可能会对一般问题有一个巧妙的解决方案(因此您不需要指定之间的时间),但这是我能做的最好的,打印所有分组:

In [13]: tg = pd.TimeGrouper('20t')

In [14]: g = df1.groupby(tg)

In [15]: def f(x):
             print x
             return x

In [16]: _ = g.apply(f)                # the '_ =' bit just suppresses ouput
                                  IP
datetime
2013-05-30 06:00:41  173.199.116.171
2013-05-30 06:05:41    61.245.172.14
2013-05-30 06:10:42    74.86.158.106
                                IP
datetime
2013-05-30 06:20:42  61.245.172.14
于 2013-06-13T10:03:39.250 回答