我需要遍历两个文件数百万次,计算整个文件中单词对的出现次数。(为了建立两个单词的列联表来计算Fisher's Exact Test分数)
我目前正在使用
from itertools import izip
src=tuple(open('src.txt','r'))
tgt=tuple(open('tgt.txt','r'))
w1count=0
w2count=0
w1='someword'
w2='anotherword'
for x,y in izip(src,tgt):
if w1 in x:
w1count+=1
if w2 in y:
w2count+=1
.....
虽然这还不错,但我想知道是否有更快的方法来遍历两个文件,希望速度快得多。
我提前感谢您的帮助。