我需要解析一个 HTML 字符串并删除所有只包含空子元素的元素。
例子:
<P ALIGN="left"><FONT FACE="Arial" SIZE="12" COLOR="#000000" LETTERSPACING="0" KERNING="1"><B></B></FONT></P>
不包含任何信息,必须替换为</br>
我写了一个这样的正则表达式:
<\w+\b[^>]*>(<\w+\b[^>]*>\s*</\w*\s*>)*</\w*\s*>
但问题是它只捕获了三个级别中的两个级别。在上面的示例中,<p>
未选择元素(最外面的元素)。
你能帮我修复这个正则表达式吗?