我正在尝试获得网站网址的清晰表示,因此我可以将“html”放在
org.w3c.dom.Document
能够使用 xpath 等进行进一步处理。
当我尝试将 html 放入文档时,我得到的是:
org.xml.sax.SAXParseException : Elementtyp "link" muss mit dem entsprechenden Endtag "" bedet werden
这意味着,该“链接”必须关闭,本网站并非如此。
那么,可能是正确的方法吗?我应该“修复”文档并替换错误吗?
我尝试了 net.sourceforge.htmlcleaner 但它没有弄清楚如何“修复”错误。
有什么帮助吗?
问候,霍尔格