0

我正在尝试编写一个正则表达式来去除除链接和之外的所有 HTML<p></p>.

现在,我可以删除所有 HTML 标签links,但我不知道如何同时保留links tagp标签?

顺便说一句,有人可以推荐一些关于如何学习正则表达式的书吗?

4

3 回答 3

1

不能使用正则表达式解析 HTML,(如此处和此处所示),原因是 HTML 可以并且不能正确形成。

您将需要使用专门的框架来做您需要的事情,如果您使用 Java,您可以尝试JSoup,对于 C#,有HTML Agility Pack,对于 PHP,有Simple DOM Parser

于 2012-08-08T05:52:37.253 回答
0

标准响应:远离正则表达式并备份。您使用正则表达式来操作 HTML。HTML 不是常规语言,因此无法使用正则表达式可靠地处理。请参阅为什么不这样做的最终答案:RegEx match open tags except XHTML self-contained tags

于 2012-08-08T05:49:37.773 回答
0

你用什么编程语言编写代码?如果你使用 PHP,它支持一个很好的 API: http: //php.net/manual/en/function.strip-tags.php

于 2012-08-08T05:59:22.500 回答