我有文本(Python 2.6 的代码):
txt="foo<br><br><b>bar :</b><br>foo<br><b>bar :</b>"
然后我尝试提取任何标签的内容(本例中为 <b> 标签):
r=re.compile("<%s.*?>(.+?)</%s>" % ("b","b"), re.I|re.S)
这主要是有效的,但输出不是我对我的棘手文本所期望的:
>>>re.findall(r,txt)
['<br><b>bar :', 'foo<br><b>bar :']
在任何情况下都可以编写一个正则表达式来从任何 HTML 标记中提取文本吗?