1

我需要在 C++ 中对 HTML 做一些简单的修改,最好不要完全重写 HTML,比如当我使用 libxml2 或 MSHTML 时会发生什么。

特别是我需要能够读取,然后(可能)修改所有“img”元素的“src”属性。我需要它足够健壮,以便能够使用任何有效的 HTML 来执行此操作,但最好不要在此过程中更改任何其他 HTML。

有没有图书馆可以处理这个问题?或者这是我可以用正则表达式做的事情吗?我对正则表达式不太了解,我在这里读过很多问题,说你不应该使用它们来解析 HTML,但我不清楚这是否适用于这样的事情,或者该原则是否适用主要是在从 HTML 构建树的上下文中进行解析。

4

2 回答 2

2

不建议将正则表达式用于 HTML,因为它们不能很好地处理嵌套标签。为此,他们应该没问题。

于 2009-08-09T16:27:08.673 回答
1

尝试查看HTMLTidy

我过去曾将它用于类似的事情。

于 2009-08-09T16:00:05.563 回答