java - HtmlCleaner 如何处理网页中的 iframe

翻译自：https://stackoverflow.com/questions/6939820 2011-08-04T10:30:29.603

245 次

我想了解 HtmlCleaner 在清理原始 html 以生成有效的 xml 输出时如何处理 iframe。带有 iframe 的页面的一个示例是这个 ebay 产品页面。

当我为此页面打印 HtmlCleaner 的输出时，我发现一些 iframe 标签完好无损，而另一些则丢失了。缺少的 iframe 之一是 id="d" 的 iframe。它包含产品描述，其正文已合并到主页中。

html 清理器的 XML 输出：http: //pastebin.com/03f9gtdC

任何人都可以看看它，或者建议一些更好的 HTML 解析库，它能够优雅地处理 iframe。该库应该能够支持 XPath 评估。

0 回答 0