html - 去除所有 HTML 标签，除了链接和
和

Question

我正在尝试编写一个正则表达式来去除除链接和之外的所有 HTML<p>和</p>.

现在，我可以删除所有 HTML 标签links，但我不知道如何同时保留links tag和p标签？

顺便说一句，有人可以推荐一些关于如何学习正则表达式的书吗？

score 1 · Accepted Answer

您不能使用正则表达式解析 HTML，（如此处和此处所示），原因是 HTML 可以并且不能正确形成。

您将需要使用专门的框架来做您需要的事情，如果您使用 Java，您可以尝试JSoup，对于 C#，有HTML Agility Pack，对于 PHP，有Simple DOM Parser。

score 0 · Accepted Answer

标准响应：远离正则表达式并备份。您不使用正则表达式来操作 HTML。HTML 不是常规语言，因此无法使用正则表达式可靠地处理。请参阅为什么不这样做的最终答案：RegEx match open tags except XHTML self-contained tags

score 0 · Accepted Answer

你用什么编程语言编写代码？如果你使用 PHP，它支持一个很好的 API： http: //php.net/manual/en/function.strip-tags.php

html - 去除所有 HTML 标签，除了链接和和