1

可能重复:
如果您不应该使用正则表达式来解析 HTML,那么 HTML 解析器是如何编写的?

我的问题很简单:当前的 DOM 解析器如何真正从字符串(XML、HTML 或其他)解析 DOM?

我知道您不应该使用 RegEx 解析 html,但是 DOM 解析器不能使用 RegEx 来匹配打开/关闭标签的模式吗?或者,是否有一个很好的一次性算法将提供的字符串解析为字符数组?

4

2 回答 2

4

看这个:

替代文字

这是一个很好的例子

于 2011-01-09T07:00:53.757 回答
0

好吧,您可以从以下基本方法开始:

http://www.blackbeltcoder.com/Articles/strings/parsing-html-tags-in-c

然后只需扩展它以将所有内容存储到完整的 DOM 树结构中。

于 2011-01-09T07:07:13.530 回答