感谢我在过滤文本文件方面收到的帮助
文本文件数据示例:
user_1384 visit_2184 1330746454
user_1385 visit_2185 1330776888
user_1385 visit_2185 1330776913
user_1386 visit_2186 1330794280
user_1387 visit_2187 1330800094
user_1388 visit_2188 1330805203
user_1388 visit_2188 1330805217
在这个线程中:
对于我的爱好项目,我选择了使用 pandas 模块过滤数据的解决方案,它就像一个魅力。
编码:
import pandas as pd
df = pd.read_csv("zadanie_3_dane.txt", header=None, sep='\s+')
df.columns = ['users', 'visits', 'dates']
n = 1
print(df['users'].value_counts()[:n])
print(df['visits'].value_counts()[:n])
我想学习的下一件事是计算“用户”的数量,他们在某个小时(fe 12:00 和 16:00)之间开始“访问”
“访问”的开始将是“用户”第一次登录。我只想计算唯一的“用户”,我不想计算重复的用户。
我读过我应该(我应该吗?)首先将我的日期戳格式更改为小时格式:
df.index = pd.to_datetime(df.index)
print((df['users'].between_time('12:00', '16:00')))
我的微不足道的尝试不起作用,我再次向强大的 Stack 的知识低头。
当我了解上述内容时,我还想学习如何计算同时发生的“访问”的最大数量。
如果有人对我想学习的东西有任何线索,您的帮助将不胜感激。
干杯!