我有一个将近 1500 行的文件,其中包含像 ")(()( & &^%&^ a %&#@%^%*&^" 这样的符号以及整个文件中的一些两三个字母。
我如何在此类文件中搜索这些字母并在 o/p 屏幕上显示找到的字母。
可能最快的方法是
import re
with open("giantfile.txt") as infile:
print(re.findall("[A-Za-z]+", infile.read()))
基于蒂姆的回答,您可以使用此代码来节省一些内存。
import re
alphas = []
with open("giantfile.txt") as infile:
for row in infile:
alphas.extend(re.findall("[A-Za-z]+", row))
print alphas
给定这个输入文件:
aaa
bbb
c12d
输出将是
['aaa', 'bbb', 'c', 'd']