1

我正在使用正则表达式来查找特定 HTML 标记之间的内容。

但是,内容可能是外语,并且可以包含任何内容。

我试图找出一个正则表达式,我可以在其中捕获标签之间的所有内容。我看过关于特定案例的文章和问答,但我不知道如何将它们放在一起(尤其是外国字符要求)。

有没有人有任何解决方案/想法?

4

3 回答 3

0

解决方案

>.*?<

警告

正则表达式对于解析 HTML 真的很糟糕。例如,考虑一下两个 HTML 标签之间有一个“<”的情况,你的正则表达式会很糟糕。

请考虑使用类似jsoup的东西,它是一个真正的小型 Java 库,可以在 HTML 解析上创造奇迹。

于 2013-10-30T21:55:25.360 回答
0

<.*?>应该抓住任何东西,不管它可能是什么。

于 2013-10-30T16:09:03.143 回答
0

您可以使用以下模式匹配除小于号以外的任何字符:[^<]

这将匹配外来字符,但不匹配标签的第一个字符。

于 2013-10-30T16:10:05.613 回答