1

我想了解 HtmlCleaner 在清理原始 html 以生成有效的 xml 输出时如何处理 iframe。带有 iframe 的页面的一个示例是这个 ebay 产品页面

当我为此页面打印 HtmlCleaner 的输出时,我发现一些 iframe 标签完好无损,而另一些则丢失了。缺少的 iframe 之一是 id="d" 的 iframe。它包含产品描述,其正文已合并到主页中。

html 清理器的 XML 输出:http: //pastebin.com/03f9gtdC

任何人都可以看看它,或者建议一些更好的 HTML 解析库,它能够优雅地处理 iframe。该库应该能够支持 XPath 评估。

4

0 回答 0