我是一个 php 新手,但我很确定这将很难完成并且非常消耗服务器。但我想问一下,得到比我更聪明的用户的意见。
这是我正在尝试做的事情:
我有一个 URL 列表,实际上是一个 URL 数组。
对于每个 URL,我想计算该页面上没有 REL="nofollow" 属性的传出链接。
所以在某种程度上,恐怕我必须让 php 加载页面并使用正则表达式匹配所有链接?
如果我有 1000 个链接,这会起作用吗?
这是我的想法,将其放入代码中:
$homepage = file_get_contents('http://www.site.com/');
$homepage = htmlentities($homepage);
// Do a preg_match for http:// and count the number of appearances:
$urls = preg_match();
// Do a preg_match for rel="nofollow" and count the nr of appearances:
$nofollow = preg_match();
// Do a preg_match for the number of "domain.com" appearances so we can subtract the website's internal links:
$internal_links = preg_match();
// Substract and get the final result:
$result = $urls - $nofollow - $internal_links;
希望你能提供帮助,如果这个想法是正确的,也许你可以帮助我处理 preg_match 函数。