4

我正在尝试用 php 制作断开的链接检查器。我修改了一些我在网上找到的 php 代码,我不是 php 程序员。它让我们有一些完整的链接,但没关系。但是我对所有演示文稿、拉链等都有问题......基本上,如果它是下载的,那么算法认为它是一个死链接。

<?php
    set_time_limit(0);
    //ini_set('memory_limit','512M');
    $servername = "localhost";
    $username   = "";
    $password   = "";

    try {
        $conn = new PDO("mysql:host=$servername;dbname=test", $username, $password);
        // set the PDO error mode to exception
        $conn->setAttribute(PDO::ATTR_ERRMODE, PDO::ERRMODE_EXCEPTION);
        echo "Connected successfully" . "<br />";
        echo "----------------------------------------------------<br />";
    }
    catch (PDOException $e) {
        echo "Connection failed: " . $e->getMessage();
    }

    $sql    = "SELECT object,value FROM metadata where xpath = 'lom/technical/location'";
    $result = $conn->query($sql)->fetchAll(PDO::FETCH_ASSOC);
    //print_r($result);

    $array_length = sizeof($result); //26373
    //$array_length = 26373;
    $i            = 0;

    $myfile = fopen("Lom_Link_patikra1.csv", "w") or die("Unable to open file!");
    $menu_juosta = "Objektas;Nuoroda;Klaidos kodas;\n";
    //fwrite($myfile,$menu_juosta);

    for ($i; $i < $array_length; $i++) {
        $new_id           = $result[$i]["object"];
        $sql1             = "SELECT published from objects where id ='$new_id'";
        $result_published = $conn->query($sql1)->fetchAll(PDO::FETCH_ASSOC);
        //print_r ($result_published);                 

        if ($result_published[0]["published"] != 0) {
            $var1             = $result[$i]["value"];
            $var1             = str_replace('|experience|902', '', $var1);
            $var1             = str_replace('|packed_in|897', '', $var1);
            $var1             = str_replace('|packed_in|911', '', $var1);
            $var1             = str_replace('|packed_in|895', '', $var1);
            $request_response = check_url($var1); // Puslapio atsakymas

            if ($request_response != 200) {
                $my_object = $result[$i]["object"] . ";" . $var1 . ";" . $request_response . ";\n";
                fwrite($myfile, $my_object);
            }
        }
    }
    fclose($myfile);
    $conn = null;

    function check_url($url)
    {
        $ch = curl_init();
        curl_setopt($ch, CURLOPT_URL, $url);
        curl_setopt($ch, CURLOPT_HEADER, 1);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
        $data    = curl_exec($ch);
        $headers = curl_getinfo($ch);
        curl_close($ch);
        return $headers['http_code'];
    }

链接示例: http: //lom.emokykla.lt/MO/Matematika/pazintis_su_erdviniais%20_kunais_1.doc

任何解决方案,建议?

谢谢大家的帮助。现在它的工作方式更快。空格似乎有问题,但这甚至很有趣。

看来我遇到的问题在于理解 http 状态是如何工作的,比如它返回什么以及为什么。我标记为坏的链接,但在 301 或 302 的位置工作 - 重定向。 https://en.wikipedia.org/wiki/List_of_HTTP_status_codes

谢谢大家的帮助。

4

3 回答 3

3

将 CURL 用于远程文件

function checkRemoteFile($url)
{
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL,$url);
// don't download content
curl_setopt($ch, CURLOPT_NOBODY, 1);
curl_setopt($ch, CURLOPT_FAILONERROR, 1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
if(curl_exec($ch)!==FALSE)
{
    return true;
}
else
{
    return false;
}
}

编辑:我可能误解了你,但如果你只是想检查 url 是否真的存在,那么下面的代码就是你所需要的。

function url_exists($url) {
if(@file_get_contents($url,0,NULL,0,1))
{return 1;}
else
{return 0;}
}
于 2015-11-24T08:49:27.370 回答
1

curlopt_nobody 设置为 TRUE 发出 HTTP HEAD 请求而不是 GET 请求,因此请尝试使用curl_setopt( $ch, CURLOPT_NOBODY, true );

于 2015-11-24T08:46:39.957 回答
0

尝试使用 file_exists 方法: http: //php.net/manual/fr/function.file-exists.php

于 2015-11-24T08:24:08.737 回答