我有大约 30 个文件,每个文件的大小约为 300MB。每个文件中都有一些我感兴趣的信息,例如用户名。现在我想使用正则表达式查找用户名,然后找到最常见的用户名。这是我的代码:
rList=[]
for files in os.listdir("."):
with open(files,'r') as f:
for line in f:
m=re.search('PATTERN TO FIND USERNAME',line)
if m:
rList.append(m.group())
c=Counter(rList)
print c.most_common(10)
现在如您所见,我将找到的每个用户名都添加到列表中,然后调用 Counter()。这样大约需要几分钟才能完成。每次读完文件时,我都尝试删除c=Counter(rList)
and 调用,但这不会有任何区别,对吗?c.update()
那么,这是最佳实践吗?有什么方法可以提高性能吗?谢谢!