我想将 html<h1> - <h6>
中的 html 标头与 python 正则表达式匹配。一些标题包含'id'属性,我想把它放到一个组中。
通过尝试以下表达式,我得到了具有 id 属性的表达式。
>>>re.findall(r'<h[1-6].*?(id=\".*?\").*?</h[1-6].*?>','<h1>Header1</h1><h2 id="header2">header2</h2>')
['id="header2"']
问号使 RE 匹配前面 RE 的 0 次或 1 次重复。如果我放一个?在右括号之后,它将返回两个空字符串。
>>>re.findall(r'<h[1-6].*?(id=\".*?\")?.*?</h[1-6].*?>','<h1>Header1</h1><h2 id="header2">header2</h2>')
['', '']
如何使用一个正则表达式得到以下结果?
['', 'id="header2"']