假设我有很多行文本,例如:
row = ' S.G. Primary School\t\t 434,612.50'
我想找到一个看起来像会计师那样格式化的数字,然后我想向后看并拉出该数字之前的一个或多个单词。我有这个号码:
test = re.search(r"""(?=((-?\d{1,3})(,\d{3})*(\.\d\d)?$|^\.\d\d$))""",row)
S.G. Primary School 434,612.50
test.groups()
('434,612.50', '434', ',612', '.50')
这看起来是正确的。我有完整的号码和它的部分(所有我想要的)。但是我无法弄清楚如何通过前瞻断言在数字之前获取单词(或短语)。
我试过了:
test = re.search(r"""([A-Za-z ].*) (?=((-?\d{1,3})(,\d{3})*(\.\d\d)?$|^\.\d\d$))""",row)
(' S.G. Primary School\t\t', '434,612.50', '434', ',612', '.50')
这周我花了 4 个小时重新阅读 regex 文档,但我仍然不知道我是否有所收获。示例似乎对我不起作用。我不能使用 \w+ 因为我希望标签只是文本和空格,但我也想从匹配数字的开头开始倒数。这听起来像是一个“积极的前瞻性断言”,一般格式为“\w+(?=\d)”,但这对我不起作用。
另外-我对分配多个前瞻断言的正确方法感到困惑,即在匹配返回之前,ALL 必须为真:
是
r"""([A-Za-z ]*)(.*?)([\d,.]+)(?=[A-Za-z ]*)(?=[\d,.])"""
有什么不同
r"""([A-Za-z ]*)(?=[A-Za-z ]*)(.*?)([\d,.]+)(?=[\d,.])"""
因为在此示例中两者都产生相同的结果:
(' S', '.G. Primary School\t\t ', '434,612.5')
更新
以下是我正在努力寻找正则表达式答案的三个示例:
import re
rows = [' S.G. Primary School\t\t 434,612.50',
' S.G. Bad Primary School\t\t 434,612.50',
' N.3#=42^2492q\t\t\t 434,612.50']
for row in rows:
test = re.search(r"""(?!\s)([A-Za-z]{0,25}) ?([a-zA-Z]{6,25}).*?(?=(?:(?:-?\d{1,3})(?:,\d{3})*(?:\.\d\d)?$|^\.\d\d$))((-?\d{1,3})(,\d{3})*(\.\d\d)?$|^\.\d\d$)""",row)
if test != None:
print test.groups()
else:
print test
这将返回:
('Primary', 'School', '434,612.50', '434', ',612', '.50')
('Bad', 'Primary', '434,612.50', '434', ',612', '.50')
None
我希望结果是:
('Primary', 'School', '434,612.50', '434', ',612', '.50')
('Primary', 'School', '434,612.50', '434', ',612', '.50')
('', '434,612.50', '434', ',612', '.50')
我希望代码可以调整,以便我也可以返回:
('School', '434,612.50', '434', ',612', '.50')
('School', '434,612.50', '434', ',612', '.50')
('', '434,612.50', '434', ',612', '.50')
与修改。
更新
根据 Casimir 的回答,这会返回更好的数据,但我不明白如何在数字之前获取多个词组:
test = re.search(r'([A-Za-z][A-Za-z_.]*){1,2}\s+((-?\d{1,3})(,\d{3})*(\.\d\d)?$|^\.\d\d$)',row)
('School', '434,612.50', '434', ',612', '.50')
('School', '434,612.50', '434', ',612', '.50')
('q', '434,612.50', '434', ',612', '.50')
我不知道为什么
test = re.search(r'([A-Za-z_.]*){1,2}\s+((-?\d{1,3})(,\d{3})*(\.\d\d)?$|^\.\d\d$)',row)
给出一个错误:没有什么可重复的。我所做的只是改变
[A-Za-z][A-Za-z_.]*){1,2}
至
[A-Za-z_.]*){1,2}
在第一组。
也许:
test = re.search(r'([A-Za-z][A-Za-z_.]*){0,}\s+([A-Za-z][A-Za-z_.]*){0,}\s+((-?\d{1,3})(,\d{3})*(\.\d\d)?$|^\.\d\d$)',row)
更好,因为我得到了第一个词和第二个词,但不知道如何组合它们并使它们成为可选:
('Primary', 'School', '434,612.50', '434', ',612', '.50')
('Primary', 'School', '434,612.50', '434', ',612', '.50')
('q', None, '434,612.50', '434', ',612', '.50')
更新
我已将 Casimir 的答案(稍作修改){0,2} 更改为 {0,1} 并使用 findall 版本对其进行了测试:
import re
rows = [' S.G. Primary School\t\t 434,612.50 S.G. Primary School\t\t 434,612.50',
' S.G. Bad Primary School\t\t 434,612.50 Bad Primary School\t\t 434,612.50',
' N.3#=42^2492q\t\t\t 434,612.50 N.3#=42^2492q\t\t\t 434,612.50 N.3#=42^2492q\t\t\t 434,612.50 ']
for row in rows:
test = re.findall(r"(?i)([a-z][a-z_.]*(?:\s+[a-z][a-z_.]*){0,1})?\s+((-?\d{1,3})(?:,\d{3})*(?:\.\d\d)?$|^\.\d\d$)",row)
test = re.findall(r"(?i)([a-z][a-z_.]*(?:\s+[a-z][a-z_.]*){0,1})?\s+(-?\d{1,3}(?:,\d{3})*(?:\.\d\d)?)",row)
print test
但是第一个测试返回这个(当第二个测试语句被注释掉时):
[('Primary School', '434,612.50', '434')]
[('Primary School', '434,612.50', '434')]
[]
第二个测试语句返回这个结果列表 - 我想要的,排序:
[('Primary School', '434,612.50'), ('Primary School', '434,612.50')]
[('Primary School', '434,612.50'), ('Primary School', '434,612.50')]
[('q', '434,612.50'), ('q', '434,612.50'), ('q', '434,612.50')]
但是这些陈述是如此相似,我不知道为什么一个人缺少列表中的多个数字/标签。