输入:
<head><title>Title</title></head>
<font face="Verdana" size="2">
<p>
<b>Bold sentence.</b>
<br><br>Sentence after two breaks.<br><br>Sentence after another two breaks. <b><i>bold and italicized sentence.</i></b> sentence. <br><br>final sentence after two more breaks.
</font></p>
<form><center><div style='padding-left: 16px; padding-right: 16px;'><a class='button' href='javascript:void(0);' onclick='javascript:window.close()'><img src='/GBUIAssets/Web20/img/frame/buttonshade.png' alt='buttonShade' /><span class='roundLeft'><span class='roundRight'>Fermer</span></span></a></div></center></form></font>
我删除了头部、字体和形式。我得到的输出是:
<p>
<b>Bold sentence.</b>
<br><br>Sentence after two breaks.<br><br>Sentence after another two breaks. <b><i>bold and italicized sentence.</i></b> sentence. <br><br>final sentence after two more breaks.
<p>
这是有问题的,因为我试图在之后将其转换为 xml,这会引发错误。为什么它“修复”我的代码中已经有效的一部分?有什么想法可能导致它吗?如果需要,我可以提供更多代码,但我只想首先确保我没有遗漏任何明显的步骤。
编辑:为了完整的上下文,我剥离了 html 的正文内容。关键是,这个 HTML 是 HIDEOUS。格式真的很差。我将它加载到 xml 中以抛出与 html 文档有关的特定错误,并将其吐出到每个未能剥离的文件的错误报告中