1

问候,

我面临以下技术堆栈的问题:JWebUnit -> HtmlUnit -> Xalan。我正在尝试通过 XPATH 查找元素,但 HTML 文档的格式非常错误。

当我到达/bodyXPATH 上的元素时,Xalan 停止查找元素。我相信这是因为文档包含两个<body>标签,一个是未关闭的。

一切都适用于/html/heador /html。但是当我尝试/html/body(或/html/body[1],//body[1]或这些标签内的任何内容)时,我只能从 Xalan 得到 null 。

有什么办法可以解决这个问题吗?我只是无法更改 html 文档本身。感谢您的关注。

最好的问候,蒂亚戈

4

1 回答 1

1

HtmlUnit 必须使用某些东西将 HTML 转换为 XML。也许您可以告诉它使用 jsoup 或 tagsoup,它们对混乱的 HTML 非常宽容?

您还可以编写代码将 XML 树转储到文件中,以便查看其中的内容。

于 2011-04-10T23:06:33.347 回答