-1

我正在使用80legs来抓取网络以获取某些信息。所需信息在 80legs 中使用正则表达式指定。例如,如果我只需要解析我的 url 列表中的图像,我指定<img.*?>.

现在,我还需要在具有类 "rellink relarticle mainarticle" 的 div 中抓取任何锚点。例如:

<div class="rellink relarticle mainarticle">Main articles: <a href="/wiki/Theophrastus"   title="Theophrastus">Theophrastus</a> and <a href="/wiki/Historia_Plantarum" title="Historia Plantarum">Historia Plantarum</a></div>

我尝试添加

<div class="rellink relarticle mainarticle">.*?<a.*?>

但这只会抓住 div 内的第一个锚点,即使有多个锚点也是如此。是否可以更改此代码以获取 div 内的所有锚点?

4

1 回答 1

1

<div class="rellink relarticle mainarticle">.*?<a.*?>匹配 div 的开始标签,后跟任意数量的字符,后跟一个锚点。所以使用

<div class="rellink relarticle mainarticle">.*?(<a.*?>)+

反而。

于 2013-02-28T12:30:36.200 回答