python - 为什么 python urllib2 urlopen 在 API 调用中返回与浏览器不同的东西

Question

我需要定期从以下形式的网站访问和解析 XML 数据：

https://api.website.com/stuff/getCurrentData?security_key=blah

由于数据的安全性，我无法发布实际连接。当我将此 url 放入我的浏览器 (Safari) 时，我会返回 XML。

当我通过 urllib2 调用它时，我得到了垃圾。

f = urllib2.urlopen("https://api.website.com/stuff/getCurrentData?security_key=blah") 
s = f.read()
f.close()
s
'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xc5\x96mo\xda0\x10\xc7\xdf\xf7SX\xbc\xda4\x15\xc7y\x00R\xb9\xae\xfa\xb4U\x1a-\x150M{5y\xe1\x06V\x13\x079\x0e\x14>\xfd\x9c\x84\xb0\xd2\xa4S\xa4L\xe5\x95\xef\xeeo

This post Urllib's urlopen break on some sites (eg StackApps api):returns垃圾结果似乎是一个类似的问题，但它指的是JSON而不是XML。按照查看标头的说明，我认为我正在返回 GZIP 数据。{我做了建议的测试，张贴在这里}

req = urllib2.Request("https://api.website.com/stuff/getCurrentData?security_key=blah",
                      headers={'Accept-Encoding': 'gzip, identity'})
conn = urllib2.urlopen(req)
val = conn.read()
conn.close()
val[0:25]
'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03\xc5\x96]o\xda0\x14\x86\xef\xfb+,\xae6M'

在那篇文章中，有人建议这可能是本地问题，所以我尝试了一个示例站点。

f = urllib2.urlopen("http://www.python.org")
s = f.read()
f.close()
s
'<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\n\n\n<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">\n\n<head>\n  <meta http-equiv="content-type" content="text/html; charset=utf-8" />\n  <title>Python Programming Language &ndash; Official Website</title>\n

这工作得很好，所以我认为它与我实际尝试访问的站点 API 有关。

这篇文章为什么从页面中检索到的文本有时看起来像乱码？建议我可能需要对“Selenium”做一些事情，但后来发布者说问题“自行解决”，这并不能帮助我找出问题所在。

我不能使用 python 下载安全数据吗？除了 urllib2 和 url open 之外，我还需要使用不同的东西吗？

我在 Mac OSX 10.7.5 上运行 python 2.7

score 2 · Accepted Answer

您正在检索 GZIPped 压缩数据；服务器明确告诉您它与Content-Encoding: gzip. 要么使用zlib库来解压缩数据：

import zlib

decomp = zlib.decompressobj(16 + zlib.MAX_WBITS)
data = decomp.decompress(val)

或者如果响应标头指示已使用压缩，则使用支持透明解压缩的库，例如requests.

score 1 · Accepted Answer

'\x1f\x8b\'确实是 gzip 的神奇标头，因此您正在获取 gzip 数据。

在您的第二个示例中，您明确接受 gzip 编码的数据，将其更改为'Accept-Encoding': 'identity'并查看它是否有所作为。

python - 为什么 python urllib2 urlopen 在 API 调用中返回与浏览器不同的东西

2 回答 2

Related

Reference