php - PHPCRAWL - 如何为特定链接名称添加过滤器？

翻译自：https://stackoverflow.com/questions/44376356 2017-06-05T19:32:34.077

73 次

我正在将我的一个项目用作网络爬虫http://phpcrawl.cuab.de并且到目前为止它工作正常，除了我不知道如何排除或跳过具有特定名称的链接。

我已经使用了一些规则来忽略特定的文件类型

$crawler->addURLFilterRule("#\.(jpg|jpeg|gif|png|css|js|pdf|swf|ico)$# i");

但是如何为链接中的名称添加过滤器？

即忽略包含 %feed% 或 %imprint% 等的链接。

0 回答 0