1

我正在尝试使用 squid 来修改网页请求的页面内容。我遵循了颠倒的互联网教程,该教程显示了如何在页面上翻转图像的说明。

我需要更改页面的实际 html。我一直在尝试做与教程中相同的事情,但我没有编辑图像,而是尝试编辑 html 页面。下面是我用来尝试执行此操作的 php 脚本。

所有 jpg 图像都会被翻转,但页面上的内容不会被编辑。编写的已编辑 index.html 文件包含已编辑的内容,但用户收到的页面不包含已编辑的内容。

#!/usr/bin/php
<?php
$temp = array();
while ( $input = fgets(STDIN) ) {
    $micro_time = microtime();

    // Split the output (space delimited) from squid into an array.
    $temp = split(' ', $input);

    //Flip jpg images, this works correctly
    if (preg_match("/.*\.jpg/i", $temp[0])) {
        system("/usr/bin/wget -q -O /var/www/cache/$micro_time.jpg ". $temp[0]);
        system("/usr/bin/mogrify -flip /var/www/cache/$micro_time.jpg");
        echo "http://127.0.0.1/cache/$micro_time.jpg\n";
    }

    //Don't edit files that are obviously not html. $temp[0] contains url of file to get
    elseif (preg_match("/(jpg|png|gif|css|js|\(|\))/i", $temp[0], $matches)) {
        echo $input;
    }   

    //Otherwise, could be html (e.g. `wget http://www.google.com` downloads index.html)
    else{ 
        $time = time() . microtime();       //For unique directory names
        $time = preg_replace("/ /", "", $time); //Simplify things by removing the spaces
        mkdir("/var/www/cache/". $time);    //Create unique folder
        system("/usr/bin/wget -q --directory-prefix=\"/var/www/cache/$time/\" ". $temp[0]);
        $filename = system("ls /var/www/cache/$time/");     //Get filename of downloaded file

        //File is html, edit the content (this does not work)
        if(preg_match("/.*\.html/", $filename)){

            //Get the html file contents  
            $contentfh = fopen("/var/www/cache/$time/". $filename, 'r');
            $content = fread($contentfh, filesize("/var/www/cache/$time/". $filename));
            fclose($contentfh);

            //Edit the html file contents
            $content = preg_replace("/<\/body>/i", "<!-- content served by proxy --></body>", $content);

            //Write the edited file
            $contentfh = fopen("/var/www/cache/$time/". $filename, 'w');
            fwrite($contentfh, $content);
            fclose($contentfh);

            //Return the edited page
            echo "http://127.0.0.1/cache/$time/$filename\n";
        }               
        //Otherwise file is not html, don't edit
        else{
            echo $input;
        }
    }
}
?>
4

2 回答 2

0

看看 Dansguardian;它使用 PCRE 即时修改内容:链接(查看最后 2 个主题)

于 2010-03-24T10:12:15.673 回答
0

不确定它是否是您的问题的原因,但代码有很多错误。

您基于微时间分开请求 - 只有当您的流量相对较低时,这才会可靠地工作 - 请注意,如果有多个重定向器实例运行,原始 (perl) 代码可能仍会中断。

您已尝试根据文件扩展名识别内容类型 - 这适用于与列表匹配的文件 - 但它不遵循与列表不匹配的内容必须是 text/html - 你真的应该检查源服务器返回的 mimetype。

您在代码中没有错误检查/调试 - 尽管您没有可以轻松写入的错误流,但您可以将错误写入文件、系统日志或在 fopen/ fread 语句不起作用,或者如果存储的文件没有 .html 扩展名。

C。

于 2010-03-24T13:00:57.077 回答