0

我正在使用 pcre RegExp 引擎,我的字符串看起来像这样:

<h3 class="description">Description</h3>   <div class="wrapper">  dddsome string blah blahddssssseeeee <div class="empty"> </div></div> </div>          </div>

和正常工作的正则表达式并创建字符串“dddsome string blah blahddssssseeeee”,如下所示:

<\s*h3\s*class="*.+?"\s*>.*?</\s*h3>.+?<\s*div.+?class\s*="wrapper"\s*>(.+?)<\s*div\s*class="empty">

现在有一段时间我有几乎相同的字符串模式,看起来不是 div class="aplus" 标签,当这个标签出现时,我希望上面的正则表达式无法匹配所有字符串。

<h3 class="description">Description</h3>   <div class="wrapper">  <div class="aplus">  dddsome string blah blahddssssseeeee <div class="empty"> </div></div> </div> 
4

1 回答 1

0

尝试这个

<div.*>(.*)<div.*>

但是使用beautiful-soup 更容​​易更好地抓取网页

于 2017-05-05T11:04:47.823 回答