我对正则表达式模式匹配有一个奇怪的行为
正则表达式是:
String regexp = "<h3.*>(.*)</h3>";
我有第一个案例:
<h3 class="pubAdTitleBlock">Title</h3>
在这种情况下,一切正常,matcher.group(1) 给我“标题”
我是第二种情况,我有一个嵌套在 h3 中的链接,如下所示:
<h3 class="pubAdTitleBlock "><a href="myLink" title="title">Title</a></h3>
这就是问题
在这种情况下 - matcher.find() 为真, - matcher.group(0) 为完整字符串, - 但 matcher.group(1)为空字符串
为什么 ?
我需要在里面<h3 ..>title</h3>
和里面提取标题<h3 ...><a ...>title</a></h3>