Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
所以我试图删除每个包含 html 标签的部分,<p></p>在 java 中接受。
<p></p>
我试过这个接受我不能正确地得到结束标签。我试过 (///p) 但似乎无法抓住它。
"<[^(p>)>]+>.*?<[^(///p>)>]+>"
例子
<p> should stay </p> <html> shouldn't stay</html>
输出
<p> should stay </p>
使用正则表达式来操作 HTML 是一个坏、坏、坏的主意。使用正则表达式解析 HTML/XML 将召唤 Cthulu。你的灵魂会被克苏鲁吃掉。Cthulu 的另一个名字是 RegexHtmlParser。
你最好使用 xpath 来提取所有的段落标签。否则,一个允许您遍历 DOM 并提取段落标签的 HTML 解析器是您唯一真正的选择。