我正在使用80legs来抓取网络以获取某些信息。所需信息在 80legs 中使用正则表达式指定。例如,如果我只需要解析我的 url 列表中的图像,我指定<img.*?>
.
现在,我还需要在具有类 "rellink relarticle mainarticle" 的 div 中抓取任何锚点。例如:
<div class="rellink relarticle mainarticle">Main articles: <a href="/wiki/Theophrastus" title="Theophrastus">Theophrastus</a> and <a href="/wiki/Historia_Plantarum" title="Historia Plantarum">Historia Plantarum</a></div>
我尝试添加
<div class="rellink relarticle mainarticle">.*?<a.*?>
但这只会抓住 div 内的第一个锚点,即使有多个锚点也是如此。是否可以更改此代码以获取 div 内的所有锚点?