java - 用于在两个 HTML 标记之间查找所有可能的内容（包括外来字符）的正则表达式

Question

我正在使用正则表达式来查找特定 HTML 标记之间的内容。

但是，内容可能是外语，并且可以包含任何内容。

我试图找出一个正则表达式，我可以在其中捕获标签之间的所有内容。我看过关于特定案例的文章和问答，但我不知道如何将它们放在一起（尤其是外国字符要求）。

有没有人有任何解决方案/想法？

score 0 · Accepted Answer

解决方案

>.*?<

警告

正则表达式对于解析 HTML 真的很糟糕。例如，考虑一下两个 HTML 标签之间有一个“<”的情况，你的正则表达式会很糟糕。

请考虑使用类似jsoup的东西，它是一个真正的小型 Java 库，可以在 HTML 解析上创造奇迹。

score 0 · Accepted Answer

0

<.*?>应该抓住任何东西，不管它可能是什么。

于 2013-10-30T16:09:03.143 回答

score 0 · Accepted Answer

您可以使用以下模式匹配除小于号以外的任何字符：[^<]

这将匹配外来字符，但不匹配标签的第一个字符。

3 回答 3