java - 使用正则表达式删除没有插件的html标签

Question

所以我试图删除每个包含 html 标签的部分，<p></p>在 java 中接受。

我试过这个接受我不能正确地得到结束标签。我试过 (///p) 但似乎无法抓住它。

"<[^(p>)>]+>.*?<[^(///p>)>]+>"

例子

<p> should stay </p> <html> shouldn't stay</html>

输出

<p> should stay </p>

score 3 · Accepted Answer

使用正则表达式来操作 HTML 是一个坏、坏、坏的主意。使用正则表达式解析 HTML/XML 将召唤 Cthulu。你的灵魂会被克苏鲁吃掉。Cthulu 的另一个名字是 RegexHtmlParser。

你最好使用 xpath 来提取所有的段落标签。否则，一个允许您遍历 DOM 并提取段落标签的 HTML 解析器是您唯一真正的选择。

1 回答 1