2

我正在寻找一个 .NET 库,它可以从无效的 HTML 代码生成干净的 Xml 树,最好是 System.Xml.XmlDocument。IE 在遇到这种情况时应该尽最大努力猜测、修复和替换浏览器,并生成一个伪装的 XmlDocument。图书馆也应该得到很好的维护。:)

我意识到这有很多(太多了?)要问,我会很感激任何有用的线索。对于 Java,似乎有相当多的实现,但我宁愿不生成自己的绑定。到目前为止,对于 .NET,我发现http://www.majestic12.co.uk/projects/html_parser.phphttp://users.rcn.com/creitzel/tidy.html#dotnethttp://sourceforge .net/projects/tidyfornet

我还没有构建或测试任何这些,但是从(稀疏的)文档和罕见的更新来看,它们似乎没有我想要的东西。那么你有什么建议,无论是在这些选择中,还是从你过去的经验中。

4

1 回答 1

8

HTML Agility Pack 获得了很高的评价。它肯定会进行解析/最佳猜测等。

该模型有意类似于 XmlDocument,包括用于查询的 SelectNodes 等。

如果需要xhtml输出,有OptionOutputAsXmlflag;我假设将其设置为 true 并Save在 xhtml 中调用结果。

于 2009-04-01T09:59:19.970 回答