-1

我有一个项目将接受诸如(html、sgml、xml 和 txt)之类的输入。

我解析 XML 文件和 txt 文件没有问题,你能推荐一些我可以用来解析 html 或 sgml 文件的工具吗?

4

2 回答 2

1

对于HTMl Parser,使用 HTML Agilty Pack - 它是一个用于 .NET 的开源 HTML 解析器。

什么是 Html Agility Pack (HAP)?

这是一个敏捷的 HTML 解析器,它构建一个读/写 DOM 并支持普通的 XPATH 或 XSLT(实际上你不必了解 XPATH 或 XSLT 就可以使用它,不用担心......)。它是一个 .NET 代码库,允许您解析“网络之外”的 HTML 文件。解析器对“真实世界”格式错误的 HTML 非常宽容。对象模型与 System.Xml 的提议非常相似,但用于 HTML 文档(或流)。

您可以使用它来查询 HTML 并提取您想要的任何数据。

对于SGML 解析器

查看此链接,SGMLReader - 将任何 HTML 转换为有效的 XML:

http://developer.mindtouch.com/Community/SgmlReader

参考:SGML 解析器 .NET 建议

于 2012-10-04T06:19:32.590 回答
1

对于解析 HTML,我不能推荐除http://htmlagilitypack.codeplex.com/之外的任何东西,因为 SGML 基本相同,但对于其他元素,您可能也可以使用它。

于 2012-10-04T06:20:52.803 回答