1

我有一个将近 1500 行的文件,其中包含像 ")(()( & &^%&^ a %&#@%^%*&^" 这样的符号以及整个文件中的一些两三个字母。

我如何在此类文件中搜索这些字母并在 o/p 屏幕上显示找到的字母。

4

2 回答 2

8

可能最快的方法是

import re
with open("giantfile.txt") as infile:
    print(re.findall("[A-Za-z]+", infile.read()))
于 2014-01-16T16:31:57.530 回答
2

基于蒂姆的回答,您可以使用此代码来节省一些内存。

import re

alphas = []
with open("giantfile.txt") as infile:
    for row in infile:
        alphas.extend(re.findall("[A-Za-z]+", row))

print alphas

给定这个输入文件:

aaa
bbb
c12d

输出将是

['aaa', 'bbb', 'c', 'd']
于 2014-01-16T16:39:25.343 回答