.net - 从 HTML 标签汤生成 .NET XmlDocument 的库

Question

我正在寻找一个 .NET 库，它可以从无效的 HTML 代码生成干净的 Xml 树，最好是 System.Xml.XmlDocument。IE 在遇到这种情况时应该尽最大努力猜测、修复和替换浏览器，并生成一个伪装的 XmlDocument。图书馆也应该得到很好的维护。:)

我意识到这有很多（太多了？）要问，我会很感激任何有用的线索。对于 Java，似乎有相当多的实现，但我宁愿不生成自己的绑定。到目前为止，对于 .NET，我发现http://www.majestic12.co.uk/projects/html_parser.php和http://users.rcn.com/creitzel/tidy.html#dotnet和http://sourceforge .net/projects/tidyfornet。

我还没有构建或测试任何这些，但是从（稀疏的）文档和罕见的更新来看，它们似乎没有我想要的东西。那么你有什么建议，无论是在这些选择中，还是从你过去的经验中。

score 8 · Accepted Answer

HTML Agility Pack 获得了很高的评价。它肯定会进行解析/最佳猜测等。

该模型有意类似于 XmlDocument，包括用于查询的 SelectNodes 等。

如果需要xhtml输出，有OptionOutputAsXmlflag；我假设将其设置为 true 并Save在 xhtml 中调用结果。

1 回答 1