0

我正在尝试获得网站网址的清晰表示,因此我可以将“html”放在

org.w3c.dom.Document

能够使用 xpath 等进行进一步处理。

当我尝试将 html 放入文档时,我得到的是:

org.xml.sax.SAXParseException : Elementtyp "link" muss mit dem entsprechenden Endtag "" bedet werden

这意味着,该“链接”必须关闭,本网站并非如此。

那么,可能是正确的方法吗?我应该“修复”文档并替换错误吗?

我尝试了 net.sourceforge.htmlcleaner 但它没有弄清楚如何“修复”错误。

有什么帮助吗?

问候,霍尔格

4

2 回答 2

1

你可以看看 Neko: http: //nekohtml.sourceforge.net/

对我来说效果非常好

于 2013-04-11T09:11:53.227 回答
0

HTML 通常不是 xml,因此 Document 无法处理它。你需要一个像JSoup这样的特殊库

于 2013-04-11T09:13:55.810 回答