45

我有这个简单的代码:

import re, sys

f = open('findallEX.txt', 'r')
lines = f.readlines()
match = re.findall('[A-Z]+', lines)
print match

我不知道为什么我收到错误:

'预期的字符串或缓冲区'

任何人都可以帮忙吗?

4

5 回答 5

36

lines是一个列表。re.findall()不带清单。

>>> import re
>>> f = open('README.md', 'r')
>>> lines = f.readlines()
>>> match = re.findall('[A-Z]+', lines)
Traceback (most recent call last):
  File "<input>", line 1, in <module>
  File "/usr/lib/python2.7/re.py", line 177, in findall
    return _compile(pattern, flags).findall(string)
TypeError: expected string or buffer
>>> type(lines)
<type 'list'>

help(file.readlines). 即readlines()用于循环/迭代:

readlines(...)
    readlines([size]) -> list of strings, each a line from the file.

要查找文件中的所有大写字符:

>>> import re
>>> re.findall('[A-Z]+', open('README.md', 'r').read())
['S', 'E', 'A', 'P', 'S', 'I', 'R', 'C', 'I', 'A', 'P', 'O', 'G', 'P', 'P', 'T', 'V', 'W', 'V', 'D', 'A', 'L', 'U', 'O', 'I', 'L', 'P', 'A', 'D', 'V', 'S', 'M', 'S', 'L', 'I', 'D', 'V', 'S', 'M', 'A', 'P', 'T', 'P', 'Y', 'C', 'M', 'V', 'Y', 'C', 'M', 'R', 'R', 'B', 'P', 'M', 'L', 'F', 'D', 'W', 'V', 'C', 'X', 'S']
于 2013-04-24T13:41:31.663 回答
7

lines是一个字符串列表,re.findall不适用于它。尝试:

import re, sys

f = open('findallEX.txt', 'r')
lines = f.read()
match = re.findall('[A-Z]+', lines)
print match
于 2013-04-24T13:42:17.220 回答
4

readlines()将返回文件中所有行的列表,列表也是如此lines。你可能想要这样的东西:

for line in f.readlines(): # Iterates through every line and looks for a match
#or
#for line in f:
    match = re.findall('[A-Z]+', line)
    print match

或者,如果文件不是太大,您可以将其作为单个字符串抓取:

lines = f.read() # Warning: reads the FULL FILE into memory. This can be bad.
match = re.findall('[A-Z]+', lines)
print match
于 2013-04-24T13:42:21.433 回答
3

您的代码段中的“行”术语由一组字符串组成。

 lines = f.readlines()
 match = re.findall('[A-Z]+', lines)

您不能将整行发送到re.findall('pattern',<string>)

您可以尝试逐行发送

 for i in lines:
  match = re.findall('[A-Z]+', i)
  print match

或将整个行集合转换为单行(每行由空格分隔)

 NEW_LIST=' '.join(lines)
 match=re.findall('[A-Z]+' ,NEW_LIST)
 print match

这可能会帮助你

于 2015-04-07T13:26:40.243 回答
1

re.findall 在字符串中查找所有出现的正则表达式并在列表中返回。在这里,您使用的是字符串列表,您需要使用 re.findall

注意 - 如果正则表达式失败,则返回一个空列表。

import re, sys

f = open('picklee', 'r')
lines = f.readlines()  
regex = re.compile(r'[A-Z]+')
for line in lines:
     print (re.findall(regex, line))
于 2019-08-09T12:53:21.890 回答