1

我正在我的网站上构建一个脚本,但发现自己有点困惑如何以最少的编码使其正常工作。

基本上所需要的就是我可以输入一个 URL,例如 domain.com,它应该扫描该主页以查找指向我的域的链接,并检查是否分配了 rel="nofollow" 并返回 true如果链接没有 rel="nofollow" 或 false 如果没有链接,或者链接上有 rel="nofollow" 。

我该怎么做,或者我会从哪里开始。

我已经用谷歌搜索了如何创建蜘蛛,但是对于我要创建的基本脚本来说,它的信息量很大而且很复杂!

4

2 回答 2

1

你所要求的并不像你想象的那么简单。要正确执行此操作,您需要使用 DOM 解析器,例如DOMDocument.

http://www.php.net/manual/en/class.domdocument.php

您可以使用它的loadHTML()方法来解析您要扫描的网页。从那里,您可以使用它的各种功能来查找您正在寻找的特定链接,并检查其属性以确保 URL 正确,并且您rel="nofollow"在其中。

我向您保证,最后,这比您的 URL 的字符串搜索要容易得多。盲目搜索会导致结果不准确,而且比您意识到的要麻烦得多。

于 2012-05-06T16:14:46.827 回答
0

take a look at http://simplehtmldom.sourceforge.net/.

// Create DOM from URL or file
$html = file_get_html('http://www.google.com/');
// Find all links 
foreach($html->find('a') as $element) 
       echo $element->href . '<br>';
于 2012-05-06T16:15:41.353 回答