我有两个清单。一个列表 ,ref
包含正则表达式项,允许越来越大的灵活性,而另一个列表 ,input
包含要与正则表达式匹配的输入列表。到目前为止,我能够创建match
下面的字典。下面是我正在尝试创建的字典,match_upd
. match
由输入中的键和ref
值中的对应匹配项组成。值项由 中每个匹配的元组项的第二项组成ref
。此外,其中的每个值都match
包含实现匹配的命名捕获组。所需的输出,match_upd
, 将包含相同的值,但这些值中的每一个还包括匹配的捕获组中成功匹配的命名捕获组的计数,以及匹配捕获组中匹配的那些计数。下面的例子非常抽象,如果这让人感到困惑,我深表歉意。基本上,我试图统计比赛中可选捕获组的数量,以及参与比赛的这些组的数量。我正在使用 Python 的新正则表达式模块。
input = [(' PREDIR NAME SUFTYP B1 ', 'CCCC, 11111'), (' NAME SUFTYP SUFDIR A1 ', 'CCCC, 11111')]
ref = [('(?P<iter1> PREDIR PRETYP NAME SUFTYP SUFDIR )|(?P<iter2> (?P<iter2pd>PREDIR )?(?P<iter2pt>PRETYP )?NAME(?P<iter2st> SUFTYP)?(?P<iter2sd> SUFDIR)? .*? )|(?P<iter3>.*? NAME .*? )', ['PREDIR,PRETYP,NAME,SUFTYP,SUFDIR,', 'CCCC, 11111']), ('(?P<iter1> NAME )|(?P<iter2> NAME )|(?P<iter3>.*? NAME .*? )', [',,NAME,,,', 'CCCC, 11111']), ('(?P<iter1> PREDIR NAME SUFTYP )|(?P<iter2> (?P<iter2pd>PREDIR )?NAME(?P<iter2st> SUFTYP)? .*? |(?P<iter3> .*? NAME .*?)', ['PREDIR,,NAME,SUFTYP,,', 'CCCC, 11111'])]
match {' NAME SUFTYP SUFDIR A1 , CCCC, 11111': (([',,NAME,,,', 'CCCC, 11111'], 'iter3'), (['PREDIR,,NAME,SUFTYP,,', 'CCCC, 11111'], 'iter2'), (['PREDIR,PRETYP,NAME,SUFTYP,SUFDIR,', 'CCCC, 11111'], 'iter2')), ' PREDIR NAME SUFTYP B1 , CCCC, 11111': ((['PREDIR,,NAME,SUFTYP,,', 'CCCC, 11111'], 'iter2'),['PREDIR,PRETYP,NAME,SUFTYP,SUFDIR,', 'CCCC, 11111'], 'iter2'), ([',,NAME,,,', 'CCCC, 11111'], 'iter3'))}
match_upd {' NAME SUFTYP SUFDIR A1 , CCCC, 11111': (([',,NAME,,,', 'CCCC, 11111'], 'iter3',0,0), (['PREDIR,,NAME,SUFTYP,,', 'CCCC, 11111'], 'iter2',1,2), (['PREDIR,PRETYP,NAME,SUFTYP,SUFDIR,', 'CCCC, 11111'], 'iter2',2,4)), ' PREDIR NAME SUFTYP B1 , CCCC, 11111': ((['PREDIR,,NAME,SUFTYP,,', 'CCCC, 11111'], 'iter2',2,2),['PREDIR,PRETYP,NAME,SUFTYP,SUFDIR,', 'CCCC, 11111'], 'iter2',2,4), ([',,NAME,,,', 'CCCC, 11111'], 'iter3',0,0))}
我可以match
使用以下代码生成:
def match(i,o,addr,ref,group):
m = regex.fullmatch(i[0],o[0])
if m:
addr.append(str(o).strip('('')').replace("'",""))
ref.append(i[1])
m = m.groupdict()
for k,v in m.items():
if v is not None:
group.append(k)
addr = []
ref = []
group = []
for i in ref:
for t in input:
if t[1] == i[1][2]:
match(i,t,addr,ref,group)
unmatched = []
for i in input:
unmatched.append(str(i).strip('('')').replace("'",""))
match_iter123 = zip(addr,zip(ref,group))
unmatched123 = list((set(unmatched)) - (set(addr)))
matchdict123 = {}
[matchdict123.setdefault(k,[]).append(v) for k,v in match_iter123]
matchdict = defaultdict(tuple)
for i in match_iter123:
matchdict[i[0]] += i[1:]
match = {k:v for k, v in matchdict.items()}
我尝试附加所需输出的尝试match_upd
并没有取得成果:
def match(i,o,addr,ref,group,matchattributes,totalattributes):
m = regex.fullmatch(i[0],o[0])
if m:
addr.append(str(o).strip('('')').replace("'",""))
ref.append(i[1])
m = m.groupdict()
for k,v in m.items():
if v is not None and re.search(r'pd|pt|sd|st',k) is None:
group.append(k)
for k,v in m.items():
if v is not None and re.search(r'pd|pt|sd|st',k) is not None:
matchattributes.append(len(k))
for k,v in m.items():
if re.search(r'pd|pt|sd|st',k) is not None:
totalattributes.append(len(k))
我是编程新手,如果这个答案很简单,请原谅我。我基本上需要对最后两个for
语句进行计数。感谢您的帮助和耐心。