我正在从一些 html 中删除所有样式属性。我可以使用正则表达式
/style=("[^"]"|'[^']')/
但我想知道这是否效率低下(由于负匹配)。我也知道它容易受到包含引号的样式属性(例如背景图像)的影响。
是否有一个正则表达式我可以用来匹配有效的样式字符串,或者像用正则表达式解析 html 一样,这对于一个正则表达式来说是否太难了?
*edit 这是(我认为)我正在抓取的 html 中最棘手的样式字符串
style="FONT-SIZE: 10pt; COLOR: black; FONT-FAMILY: 'Verdana','sans-serif'; mso-fareast-font-family: 'Times New Roman'"