java - 如何从网站 url 获取干净的 xml 表示

Question

我正在尝试获得网站网址的清晰表示，因此我可以将“html”放在

org.w3c.dom.Document

能够使用 xpath 等进行进一步处理。

当我尝试将 html 放入文档时，我得到的是：

org.xml.sax.SAXParseException : Elementtyp "link" muss mit dem entsprechenden Endtag "" bedet werden

这意味着，该“链接”必须关闭，本网站并非如此。

那么，可能是正确的方法吗？我应该“修复”文档并替换错误吗？

我尝试了 net.sourceforge.htmlcleaner 但它没有弄清楚如何“修复”错误。

有什么帮助吗？

问候，霍尔格

score 1 · Accepted Answer

1

你可以看看 Neko： http: //nekohtml.sourceforge.net/

对我来说效果非常好

于 2013-04-11T09:11:53.227 回答

score 0 · Accepted Answer

0

HTML 通常不是 xml，因此 Document 无法处理它。你需要一个像JSoup这样的特殊库

于 2013-04-11T09:13:55.810 回答

2 回答 2