2

我正在尝试使用 cfhttp 拉出一个页面以从中解析信息。我正在调用的页眉是:

内容编码:gzip

连接:保持活动

内容长度:19066

服务器:IBM_HTTP_Server

变化:Accept-Encoding、User-Agent

内容语言:en-US

缓存控制:no-cache="set-cookie,

设置cookie2"

内容类型:

文本/html;charset=ISO-8859-1

我将字符集设置为 ISO-8859-1,但是我在 FileContent 中得到了以下内容(下面只显示了一个小示例,但我认为它可以指出)。

EðÑq·Oã?·Ì\ZóL¯þ´Vú5ðbä£ÿæ¾_HÉÒñQãO\Çþãë85ÁÜ à±°ùÖ}&bßý?,u?2SùQyk5g?UÛ3Ѹfã×ARÃ_i_iûRã _ òCA¿-ß。"b /¯ßíWÝÆ´}w~,°iøÜCáÇþ@ÃZ5¤ïsÁ8½°ì* ZÜéjOÝK/Ë4§ÈG5×ä*¬6ÚwÇ0]ã:àÑþé¬G"ÅÁl/t° jlá»5¶&¯lìYìºØ'yDð½|#ý<ñìTé%¾ï¬ùƪx¶}«±o9»ë¼ÂÆÒï'w8Y?÷ðxsllû 6íqüGÞsÜóÀx·ªk®XºàåZ{íÁ½åo÷mbq¥ÝÃ8M

我尝试了其他字符集,并正在考虑 gzip 编码导致问题,但我不确定如何测试是否是问题。任何建议或帮助将不胜感激。

下面是我的代码

<cfhttp 
    METHOD="get"
    throwonerror="yes" 
    CHARSET="ISO-8859-1"
    URL="http://www.cars.com/for-sale/searchresults.action?sf1Dir=DESC&prMn=1&crSrtFlds=stkTypId-feedSegId-pseudoPrice&rd=100000&zc=44203&PMmt=0-0-0&stkTypId=28881&sf2Dir=ASC&sf1Nm=price&sf2Nm=miles&feedSegId=28705&searchSource=UTILITY&pgId=2102&rpp=10">

    <cfhttpparam type="Header" name="Accept-Encoding" value="deflate;q=0">
    <cfhttpparam type= "Header" name= "TE" value= "deflate;q=0" >
</cfhttp>

<cfset listings = #cfhttp.FileContent#>
<cfoutput>
    #listings#
</cfoutput>

我也尝试过标题:

    <cfhttpparam type="Header" name="Accept-Encoding" value="*">
    <cfhttpparam type= "Header" name= "TE" value= "deflate;q=0" >

并尝试删除“Accept-Encoding”标头并离开 TE。

更新: 我还没有弄清楚,但我发现了一些可以帮助别人帮助我的东西。当我使用我的测试 php 服务器在同一页面上运行 file_get_contents 并且它工作正常时,如果我运行相同的 cfhttp 代码来调用正在调用我需要的页面的 php 页面,它工作得很好。感谢您迄今为止的建议。

4

3 回答 3

10

car.com 的问题似乎是他们将输出压缩了两次(基于此线程

所以,我们需要解压缩内容......再次......

首先,我们需要以二进制形式获取内容,因此 CFHTTP 调用需要包含

getasbinary="yes"

然后,我们需要解压它。

我们可以使用 java.util.zip 来做到这一点。gunzip 是这个 cflib.org 函数的修改版本:

<cfhttp
    getasbinary="yes"
    METHOD="get"
    throwonerror="yes"
    CHARSET="ISO-8859-1"
    URL="http://www.cars.com/for-sale/searchresults.action?sf1Dir=DESC&prMn=1&crSrtFlds=stkTypId-feedSegId-pseudoPrice&rd=100000&zc=44203&PMmt=0-0-0&stkTypId=28881&sf2Dir=ASC&sf1Nm=price&sf2Nm=miles&feedSegId=28705&searchSource=UTILITY&pgId=2102&rpp=10" >

    <cfhttpparam type="Header" name="Accept" value="application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5">
    <cfhttpparam type="Header" name="User-Agent" value="Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_5_8; en-US) AppleWebKit/534.7 (KHTML, like Gecko) Chrome/7.0.517.41">
    <cfhttpparam type="Header" name="Accept-Encoding" value="deflate">
    <cfhttpparam type="Header" name="TE" value="deflate, chunked, identity, trailers">

</cfhttp>

<cfset unzippedHTML = gunzip(cfhttp.FileContent)>

<cfoutput>
    #unzippedHTML#
</cfoutput>

<cfscript>

    function gunzip(inBytes) {
        var gzInStream = createObject('java','java.util.zip.GZIPInputStream');
        var outStream = createObject('java','java.io.ByteArrayOutputStream');
        var inStream = createObject('java','java.io.ByteArrayInputStream');
        var buffer = repeatString(" ",1024).getBytes();
        var length = 0;
        var rv = "";

        try {
            inStream.init(inBytes);
            gzInStream.init(inStream);
            outStream.init();
            do {
                length = gzInStream.read(buffer,0,1024);
                if (length neq -1) outStream.write(buffer,0,length);
            } while (length neq -1);
            rv = outStream.toString();
            outStream.close();
            gzInStream.close();
            inStream.close();
        }
        catch (any e) {
            rv = "";
            try {
                outStream.close();
            } catch (any e) { }
                try {
                    gzInStream.close();
                } catch (any e) {
                    try {
                        inStream.close();
                    } catch (any e) {}
                }
        }
        return rv;
    }
</cfscript>

请务必仔细检查函数的 var 范围。我可能错过了什么。

于 2010-11-04T15:47:54.127 回答
3

根据标题,您看到的是文件的 gzip 压缩内容。在对您有用之前,它需要解压缩。我假设您可以使用 cfzip 执行此操作,但没有任何经验。

这篇文章似乎表明您可以在请求中添加一个标头,以便在返回之前将其解压缩/放气:

<cfhttp ...>
    <cfhttpparam type="Header" name="Accept-Encoding" value="deflate;q=0">
    <cfhttpparam type="Header" name="TE" value="deflate;q=0">
</cfhttp>
于 2010-06-04T13:30:40.873 回答
0

我要做的第一件事是通过对其他页面尝试相同的代码来确保问题不是源内容/服务器。如果它们工作正常,那么很可能是您尝试使用的服务器/内容。如果他们有同样的问题,那么问题出在您的代码中。如果您发布代码也会很有帮助。

于 2010-06-04T12:59:00.283 回答