在解析网页时,我的解析器由于无效的 DOM 结构而停止。我想通过替换某些节点来修复它。
我发现有一个额外</div>
的导致解析器停止。
我需要编写一个正则表达式来检查: if any</div>
后跟一个</div>
[即两者之间没有起始<div>
标签。它将检查 <div
标签可能有 id 或 class to follow],然后最后一个</div>
将替换为<div></div>
.
即如果</div>
后跟一个</div>
,那么最后一个将被替换为<div></div>
。
提前致谢。
例子:
<div>
<img src="/lexus-share/images/spacer.gif" width="2" height="15" border="0" alt="">
</div>
<a href="http://www.somedomain.com"><img src="/pub-share/images.jpg"></a>
</div>