我在 Word 到 HTML 转换后生成了大型 HTML 文档。HTML 代码包含大量额外的标签。我想用正则表达式清除额外的标签。我正在使用 UltraEdit 编辑器 (v11.20)。我尝试了一些正则表达式来在 html 中找到所需的位置,但对我不起作用。(例如'*')
这是代码示例:
<P LANG="en-US" CLASS="western" ALIGN=JUSTIFY STYLE="margin-left: -0.49in; margin-right: -0.59in; text-indent: 0.3in; margin-bottom: 0in">
<FONT COLOR="#943634"> </FONT><FONT COLOR="#943634"><FONT FACE="Arial, sans-serif"><FONT SIZE=5 STYLE="font-size: 20pt"><B> TEXT TEXT</B></FONT></FONT></FONT></P>
我想使用正则表达式来替换它
<h1> TEXT TEXT TEXT</h1>
注意,里面有空格
<font color="#943634"> </font>
标签
此外,标签内的文本<B> </B>
可以很长,并且可以移动到新行。