我有两个文件要合并(左连接),以识别左文件中的哪些记录与右文件中的匹配行一起返回。
匹配键基于定义邮政数据的列的选择。我正在研究定义匹配阈值并为唯一地址分配唯一键以进行重复管理的方法。这也称为家庭管理,这意味着新匹配不会减少处理。
真正的挑战是有效地为非常大的文件运行主匹配循环。
这种设置可能是 map/reduce 的一个很好的候选,但我现在想探索自包含(如“不那么天真”)的解决方案。
我已经检查了 Python 中迭代大文件 (10GB+) 的最有效方法,但是由于一遍又一遍地重新访问正确的表,因此可能存在特定于此练习的最佳结构。
有任何想法吗?谢谢。
import csv
import StringIO
from fuzzywuzzy import fuzz
cols1 = [ 1 , 3 , 4]
f1 = '''x1,x2,x3,x4,x5
the,quick,brown,fox,jumps
over,the,lazy,dogs,back,
bla,bla,bla,bla,bla'''
cols2 = [ 2 , 3 , 4]
f2 = '''x1,x2,x3,x4,x5
the,fast,brown,fox,jumps
over,many,snoozing,dogs,back,
the,prompt,fuchsia,fox,jumps
over,the,lazy,dogs,back,
bl,the,bl,bl,fox'''
def standardize( x , selection , field_lengths=None ):
y = ','.join([ x[selection[i]] for i in range(len(selection)) ])
return y
f1 = StringIO.StringIO(f1)
f2 = StringIO.StringIO(f2)
reader1 = csv.reader( f1 )
reader2 = csv.reader( f2 )
keys2 = []
for row in reader2:
# standardize and load key
keys2.append( standardize( row , cols2 ) )
for row in reader1:
# standardize and compare
key1 = standardize( row , cols1 )
# ------------------------------------------------
matches = [ fuzz.ratio( key1 , k) for k in keys2 ]
# ------------------------------------------------
max_match = max( matches )
max_pos = [i for i, x in enumerate(matches) if x == max_match ][0]
print key1 , "-->" , keys2[max_pos] , ':' , max_match