我正在尝试编写一个正则表达式来去除除链接和之外的所有 HTML<p>
和</p>
.
现在,我可以删除所有 HTML 标签links
,但我不知道如何同时保留links tag
和p
标签?
顺便说一句,有人可以推荐一些关于如何学习正则表达式的书吗?
您不能使用正则表达式解析 HTML,(如此处和此处所示),原因是 HTML 可以并且不能正确形成。
您将需要使用专门的框架来做您需要的事情,如果您使用 Java,您可以尝试JSoup,对于 C#,有HTML Agility Pack,对于 PHP,有Simple DOM Parser。
标准响应:远离正则表达式并备份。您不使用正则表达式来操作 HTML。HTML 不是常规语言,因此无法使用正则表达式可靠地处理。请参阅为什么不这样做的最终答案:RegEx match open tags except XHTML self-contained tags
你用什么编程语言编写代码?如果你使用 PHP,它支持一个很好的 API: http: //php.net/manual/en/function.strip-tags.php