在解析网页时,我的解析器由于无效的 DOM 结构而停止。我想通过替换某些节点来修复它。
我发现有一个额外</div>的导致解析器停止。
我需要编写一个正则表达式来检查: if any</div>后跟一个</div>[即两者之间没有起始<div>标签。它将检查 <div标签可能有 id 或 class to follow],然后最后一个</div>将替换为<div></div>.
即如果</div>后跟一个</div>,那么最后一个将被替换为<div></div>。
提前致谢。
例子:
<div>
<img src="/lexus-share/images/spacer.gif" width="2" height="15" border="0" alt="">
</div>
<a href="http://www.somedomain.com"><img src="/pub-share/images.jpg"></a>
</div>