我正在使用 tagoup 解析器,它遵循 HTML4 并且不允许<p>
标签内的<a>
标签。因此,它正在解析不正确的 HTML。我浏览了 tagsoup 文档,但找不到任何有用的信息,通过这些信息可以将 tagsoup (org.ccil.cowan.tagsoup) 配置为使用 HTML5 标准。例如
<a href="/foreign-education-exam"><p >Study Abroad</p></a>
变成
<a shape="rect" href="/foreign-education-exam" /><p>Study Abroad</p>