0

我需要遍历两个文件数百万次,计算整个文件中单词对的出现次数。(为了建立两个单词的列联表来计算Fisher's Exact Test分数)

我目前正在使用

from itertools import izip
src=tuple(open('src.txt','r'))
tgt=tuple(open('tgt.txt','r'))
w1count=0
w2count=0
w1='someword'
w2='anotherword'
for x,y in izip(src,tgt):
    if w1 in x:
         w1count+=1
    if w2 in y:
         w2count+=1
    .....

虽然这还不错,但我想知道是否有更快的方法来遍历两个文件,希望速度快得多。

我提前感谢您的帮助。

4

3 回答 3

1

我仍然不太明白您到底想要做什么,但这里有一些示例代码可能会为您指明正确的方向。

我们可以使用字典或collections.Counter实例在一次遍历文件中计算所有出现的单词和对。之后,我们只需要查询内存中的数据。

import collections
import itertools
import re

def find_words(line):
    for match in re.finditer("\w+", line):
        yield match.group().lower()

counts1 = collections.Counter()
counts2 = collections.Counter()
counts_pairs = collections.Counter()

with open("src.txt") as f1, open("tgt.txt") as f2:
    for line1, line2 in itertools.izip(f1, f2):
        words1 = list(find_words(line1))
        words2 = list(find_words(line2))
        counts1.update(words1)
        counts2.update(words2)
        counts_pairs.update(itertools.product(words1, words2))

print counts1["someword"]
print counts1["anotherword"]
print counts_pairs["someword", "anotherword"]
于 2013-10-17T11:03:24.527 回答
0

一般来说,如果您的数据足够小以适合内存,那么您最好的选择是:

  1. 将数据预处理到内存中

  2. 从内存结构中迭代

如果文件很大,您可以将其预处理为数据结构,例如您的压缩数据,并保存为诸如 pickle 之类的格式,这种格式在单独的文件中加载和使用的速度要快得多,然后再进行处理。

于 2013-10-17T10:02:47.907 回答
0

就像一个开箱即用的解决方案:您是否尝试过将文件制作成 Pandas 数据框?即我假设您已经从输入中制作了一个单词列表(通过删除诸如 . 和 , 之类的阅读符号)并使用 input.split(' ') 或类似的东西。然后您可以制作 DataFrames,执行字数计数,然后进行笛卡尔连接?

import pandas as pd
df_1 = pd.DataFrame(src, columns=['word_1'])
df_1['count_1'] = 1
df_1 = df_1.groupby(['word_1']).sum()
df_1 = df_1.reset_index()

df_2 = pd.DataFrame(trg, columns=['word_2'])
df_2['count_2'] = 1
df_2 = df_2.groupby(['word_2']).sum()
df_2 = df_2.reset_index()

df_1['link'] = 1
df_2['link'] = 1

result_df = pd.merge(left=df_1, right=df_2, left_on='link', right_on='link')
del result_df['link']

我用这样的东西来分析篮子,效果很好。

于 2013-10-17T10:18:40.680 回答