有一个网站是无效的XHTML(缺少一些结束标签)。
我想用 XSLT 处理它的内容,但因此,我需要一个有效的 XML 输入。
是否可以将浏览器从无效 XHTML 输入创建的 DOM 文档保存为有效的 XML/XHTML?
是的。有几个库可以处理无效标记并将其作为有效的 xml/xhtml 返回。其中之一是整洁的http://tidy.sourceforge.net/
如果您可以访问该网站,则可以将输出打印到缓冲区中,然后对其进行清理...顺便说一句:有效的 xhtml 也是有效的 xml。
如果您使用 .NET 作为服务器端技术,您可以尝试Html Agility Pack。它可以加载无效的 HTML/XHTML 并将其转换为有效的 XML。