这个问题提供了这个filename
参数的背景。
我需要编写一个脚本来访问 Web 服务器上的一些文件。文件名包含不能用 ASCII 编码的 CJK 字符。
$ curl -I 'http://bj.baidupcs.com/file/f6f258963f3c5daaa154ed441db232e1?xcode=f5a142e99df965f6a3b4c502a3c55a73283ef282da2f5c14&fid=1107408242-250528-2625488475&time=1373046574&sign=FDTAXER-DCb740ccc5511e5e8fedcff06b081203-QSIMrWw%2FICWQuExpdtyijM0vbMM%3D&to=bb&fm=N,Q,U&expires=8h&rt=sh&r=210487178&logid=3893215518&sh=1'
......
Content-Disposition: attachment;filename="【动漫之家汉化组】[最强会长黑神][第192话][黑神目泷依然健在][END].zip"
......
如您所见,cURL 正确地解码了文件名。Firefox 也可以找出正确的文件名。
我用 Python 编写了我的脚本。我先试过requests
:
>>> import requests
>>> r=requests.head('http://bj.baidupcs.com/file/f6f258963f3c5daaa154ed441db232e1?xcode=f5a142e99df965f6a3b4c502a3c55a73283ef282da2f5c14&fid=1107408242-250528-2625488475&time=1373046574&sign=FDTAXER-DCb740ccc5511e5e8fedcff06b081203-QSIMrWw%2FICWQuExpdtyijM0vbMM%3D&to=bb&fm=N,Q,U&expires=8h&rt=sh&r=210487178&logid=3893215518&sh=1')
>>> r.headers['content-disposition']
'attachment;filename="ã\x80\x90å\x8a¨æ¼«ä¹\x8b家æ±\x89å\x8c\x96ç»\x84ã\x80\x91[æ\x9c\x80强ä¼\x9aé\x95¿é»\x91ç¥\x9e][第192è¯\x9d][é»\x91ç¥\x9eç\x9b®æ³·ä¾\x9dç\x84¶å\x81¥å\x9c¨][END].zip"'
文件名看起来像是 Python 字节的奇怪表示。问题是这整件事已经是一个 Python 字符串。我想不出一种方法来解码实际字节。
>>> type(r.headers['content-disposition'])
<class 'str'>
底层库requests
使用的是http.client
标准库。我试过了,但得到了同样的结果:
>>> import http.client
>>> conn = http.client.HTTPConnection("bj.baidupcs.com")
>>> conn.request('HEAD', '/file/f6f258963f3c5daaa154ed441db232e1?xcode=f5a142e99df965f6a3b4c502a3c55a73283ef282da2f5c14&fid=1107408242-250528-2625488475&time=1373046574&sign=FDTAXER-DCb740ccc5511e5e8fedcff06b081203-QSIMrWw%2FICWQuExpdtyijM0vbMM%3D&to=bb&fm=N,Q,U&expires=8h&rt=sh&r=210487178&logid=3893215518&sh=1')
>>> r=conn.getresponse()
>>> r.getheader('content-disposition')
'attachment;filename="ã\x80\x90å\x8a¨æ¼«ä¹\x8b家æ±\x89å\x8c\x96ç»\x84ã\x80\x91[æ\x9c\x80强ä¼\x9aé\x95¿é»\x91ç¥\x9e][第192è¯\x9d][é»\x91ç¥\x9eç\x9b®æ³·ä¾\x9dç\x84¶å\x81¥å\x9c¨][END].zip"'
我在 Windows 上使用 Python 3。