以下是目标字符串。
July 17, 2007 –<br> September 25, 2009 <br> June 2007 - July 2010
我正在尝试在<br>
不跟随的标签之前添加换行符-
。因此,生成的字符串应该是:
July 17, 2007 –<br> September 25, 2009 \n<br> June 2007 - July 2010
我尝试了以下正则表达式无济于事。
re.sub(r'([^-])(\s*<br)',r'\1\n\2', astring)
给我
July 17, 2007 –\n<br> September 25, 2009\n <br> June 2007 - July 2010
解决办法是什么?
更新:
我实际上并没有用正则表达式解析 HTML。我知道 HTML + RegEx 组合会让我发疯。我已经在使用 lxml 来解析 HTML。但是,我无法理解的是为什么正则表达式无法捕捉到这种-\s*<
模式。