我必须处理约 16,000 行数据。每一行都是一个交易记录,有几个部分。例如:row= [ID, thing, widget]
我想做的很简单——对于每一行,将其与其余行一一进行比较。如果 A 行具有唯一 ID 和唯一小部件,我想将其写入输出文件。否则,我不需要它。(这个程序基本上为我自动清理数据。)这是我目前所拥有的:
try:
infile=open(file1, 'r')
for line in infile:
line_wk=line.split(",")
outfile=open(file2, 'r')
for line in outfile:
line_wk2=line.split(",")
if line_wk[0]==line_wk2[0]:
if line_wk[2]!=line_wk2[2]: #ID is not unique, but the widget is
to_write=','.join(line_wk) #queued to write later
else:
to_write=','.join(line_wk) #queued to write later
if len(to_write)>0:
outfile.close()
outfile=open(file2, 'a')
outfile.write(to_write)
outfile.close()
outfile=open(file2, 'r')
infile.close()
outfile.close()
except:
print("Something went wrong.")
在一个小型测试集上运行它,它会停留在“try”块内,否则只会写入所有内容,而不仅仅是具有唯一 ID 和小部件的那些。我认为有一种非常简单的方法可以做到这一点。任何帮助表示赞赏!