我制作了一个简单的脚本来查找<a>
网站的所有传出标签并显示它们。
为此,我首先抓取站点地图,将这些 URL 放入一个数组中,然后循环遍历各个 URL,分别抓取每个标签以查找<a>
标签,然后strpos()
在每个找到的标签上运行,看看它是否有任何我想忽略的 URL。
该脚本大约需要 5 分钟(抓取 500 页)才能完成(在本地运行),我想知道是否有更快的方法来处理针/干草堆搜索排除的参数。目前我正在使用
//SEES IF URL CONTAINS EXCLUDED PARAM
function find_excluded_url ($match_url) {
return strpos($match_url, "mydomain.co.uk") ||
strpos($match_url, "tumblr.com") ||
strpos($match_url, "nofollow") ||
strpos($match_url, "/archive") ||
strpos($match_url, "page/2");
}
然后显示结果即时使用
if ( find_excluded_url($element) == false ) {
echo "<a href='$element->href'>" . $element->href . "</a>";
}
有没有更高效的方法来实现这一目标?
抱歉,如果这是一个非常明显的问题,这是我用 PHP 构建的第一个真实的东西