这可以通过以下方式相当有效地完成:
- 查找所有匹配项
- 循环换行,将
{offset: line_number}
映射存储到最后一个匹配。
- 对于每场比赛,事先反向找到第一个换行符的偏移量,并在地图中查找它的行号。
这样可以避免每次匹配都倒数到文件的开头。
下面的功能类似于re.finditer
def finditer_with_line_numbers(pattern, string, flags=0):
'''
A version of 're.finditer' that returns '(match, line_number)' pairs.
'''
import re
matches = list(re.finditer(pattern, string, flags))
if not matches:
return []
end = matches[-1].start()
# -1 so a failed 'rfind' maps to the first line.
newline_table = {-1: 0}
for i, m in enumerate(re.finditer(r'\n', string), 1):
# don't find newlines past our last match
offset = m.start()
if offset > end:
break
newline_table[offset] = i
# Failing to find the newline is OK, -1 maps to 0.
for m in matches:
newline_offset = string.rfind('\n', 0, m.start())
line_number = newline_table[newline_offset]
yield (m, line_number)
如果需要内容,可以将最后一个循环替换为:
for m in matches:
newline_offset = string.rfind('\n', 0, m.start())
newline_end = string.find('\n', m.end()) # '-1' gracefully uses the end.
line = string[newline_offset + 1:newline_end]
line_number = newline_table[newline_offset]
yield (m, line_number, line)
请注意,避免必须从创建列表会很好finditer
,但这意味着我们不知道何时停止存储换行符(即使唯一的模式匹配位于文件开头,它也可能最终存储许多换行符) .
如果避免存储所有匹配项很重要 - 可以创建一个根据需要扫描换行符的迭代器,尽管不确定这在实践中会给您带来多大优势。