大家,我有一个大文件,格式如下。数据采用“块”格式。一个“块”包含三行:时间 T、用户 U 和内容 W。例如,这是一个块:
T 2009-06-11 21:57:23
U tracygazzard
W David Letterman is good man
因为我只会使用包含特定关键字的块。我将原始海量数据中的数据逐块切片,而不是将整个数据转储到内存中。每次读入一个块,如果该行内容包含“bike”一词,则将该块写入磁盘。
您可以使用以下两个块来测试您的脚本。
T 2009-06-11 21:57:23
U tracygazzard
W David Letterman is good man
T 2009-06-11 21:57:23
U charilie
W i want a bike
我试图逐行做这项工作:
data = open("OWS.txt", 'r')
output = open("result.txt", 'w')
for line in data:
if line.find("bike")!= -1:
output.write(line)