3

在 C# 中解析 HTML 片段的最佳方法是什么?

对于上下文,我继承了一个使用大量复合控件的应用程序,这很好,但是很多控件是使用一长串文字控件呈现的,这相当可怕。我试图让应用程序进入单元测试,我想让这些控件接受测试,以了解它们是否生成格式良好的 HTML,并在理想的解决方案中验证该 HTML。

4

4 回答 4

3

看看 HTMLAgility包。它与 .NET XmlDocument 类非常兼容,但它对不干净/有效的 XHTML 的 HTML 更加宽容。

于 2008-10-30T14:14:40.333 回答
1

我使用SGMLReader从 HTML 生成有效的 Xml 文档,然后使用 XPath 解析所需的内容或使用 XSLT 解析为另一种格式。.

于 2008-10-30T14:29:46.260 回答
1

如果 HTML 与 XHTML 兼容,则可以使用内置的 System.Xml 命名空间。

于 2008-10-30T14:32:57.520 回答
-1

您还可以查看HTML Tidy以进行 HTML 解析/清理。我认为他们没有特定的 .NET 库,但您可能能够通过命令行运行二进制文件,或者通过 Java 库运行 IKVM。

于 2008-10-30T15:06:50.257 回答