2

我正在制作一个简单的链接检查器来检查我现在管理的站点中文件的数千个直接链接。所有文件都来自archive_org。我做了一个文本区域

<table width="100%"> <tr><td>URLs to check:</td><td><textarea name="myurl" id="myurl" cols="100" rows="20"></textarea></td></tr> 
<tr><td align="center" colspan="2"><br/><input class="text" type="submit" name="submitBtn" value="Check links"></td></tr> </table>

并且它上面的所有链接都将存储在一个名为 $url 的数组中(每个 url 都放在一个新行中)

$url = explode("\n", $_POST['myurl']);

我使用 print_r 打印了它,并且数组内的链接与输入的相同,没有添加任何字符。

我使用两种方法检查了 url:fopen() 和 curl 函数,无论我放置多少链接,程序都会看到除了最后一个链接之外的所有链接都已损坏。数组中的最后一个链接是唯一正确检查的链接。

我使用了 get_headers 函数,我注意到所有链接(除了最后一个)都在其末尾添加了下划线 (_)。get_headers 代码是:

for ($i=0;$i<count($url);$i++) {
   $headers = @get_headers($url[$i]);
   $headers = (is_array($headers)) ? implode( "\n ", $headers) : $headers;
   print_r($headers);
   echo "<br /><br />";   
    }

在标题中,我注意到链接是这样的:

HTTP/1.0 302 临时移动服务器:nginx/1.1.19 日期:星期一,2013 年 9 月 2 日 10:46:40 GMT 内容类型:text/html;charset=UTF-8 X-Powered-By:PHP/5.3.10-1ubuntu3.2 接受范围:字节位置:http://ia600308.us.archive[dot]org/23/items/historyofthedecl00731gut/1dfre012103.mp3_ X-Cache:Dataprolinks 的 MISS X-Cache:AIMAN-DPL 的 MISS X-Cache-Lookup:AIMAN-DPL 的 MISS:3128 连接:关闭 HTTP/1.0 404 未找到服务器:nginx/1.1.19 日期:周一,02 2013 年 9 月 10:46:41 GMT 内容类型:文本/html;charset=UTF-8 X-Powered-By: PHP/5.3.10-1ubuntu3.2 Set-Cookie: PHPSESSID=s2j3ct95vdji0ua89f32grd984; 路径=/; domain=.archive.org 过期时间:1981 年 11 月 19 日星期四 08:52:00 GMT 缓存控制:无存储,无缓存,必须重新验证,后检查 = 0,预检查 = 0缓存 X-Cache:来自 Dataprolinks X-Cache 的 MISS:来自 AIMAN-DPL X-Cache-Lookup 的 MISS:

链接有加下划线,除了最后一个url的header,没有加下划线。我猜这个下划线负责检查错误。

我在哪里犯错?

4

1 回答 1

3

对于您的情况,我猜您在 Window 中发布 URL,当您按"ENTER"键分隔链接时,"ENTER""\r\n"。在 WWW 中,不能包含"\r",因此在某处(php?curl?我不知道。)将其转换为"_"

<?php

$urls = array();
$urls[] = 'http://archive.org/download/historyofthedecl00731gut/1dfre011103.mp3';
$urls[] = 'http://archive.org/download/historyofthedecl00731gut/1dfre000103.txt';
$urls[] = 'http://archive.org/download/historyofthedecl00731gut/1dfre082103.mp3';
$urls[] = 'http://archive.org/download/historyofthedecl00731gut/1dfre001103.txt';
$urls[] = 'http://archive.org/download/historyofthedecl00731gut/1dfre141103.mp3';

print("<pre>" .print_r($urls, 1). "</pre><br /><br />");

foreach($urls as $url){
    //ensure each url only start with ONE _ and end with ONE _
    print("<pre>_" . $url . "_</pre>");
    $header = array();
    $headers = @get_headers($url);
    print("<pre>" .print_r($headers, 1). "</pre><br /><br />");
}

?>

您可以使用我的代码进行简单测试:每个链接的开头和结尾都将打印“_” 。然后证明我的解释。如何修复:只需添加strip_tags(nl2br($url))删除"\r""\n"

简单的结果

于 2013-09-02T11:45:50.840 回答