我正在寻找一个 .NET 库,它可以从无效的 HTML 代码生成干净的 Xml 树,最好是 System.Xml.XmlDocument。IE 在遇到这种情况时应该尽最大努力猜测、修复和替换浏览器,并生成一个伪装的 XmlDocument。图书馆也应该得到很好的维护。:)
我意识到这有很多(太多了?)要问,我会很感激任何有用的线索。对于 Java,似乎有相当多的实现,但我宁愿不生成自己的绑定。到目前为止,对于 .NET,我发现http://www.majestic12.co.uk/projects/html_parser.php和http://users.rcn.com/creitzel/tidy.html#dotnet和http://sourceforge .net/projects/tidyfornet。
我还没有构建或测试任何这些,但是从(稀疏的)文档和罕见的更新来看,它们似乎没有我想要的东西。那么你有什么建议,无论是在这些选择中,还是从你过去的经验中。