9

我有一个使用requests模块从 web 服务检索到的 unicode 字符串,其中包含二进制文档的字节(PCL,碰巧)。其中一个字节的值为 248,尝试对其进行 base64 编码会导致以下错误:

In [68]: base64.b64encode(response_dict['content']+'\n')
---------------------------------------------------------------------------
UnicodeEncodeError                        Traceback (most recent call last)
C:\...\<ipython-input-68-8c1f1913eb52> in <module>()
----> 1 base64.b64encode(response_dict['content']+'\n')

C:\Python27\Lib\base64.pyc in b64encode(s, altchars)
     51     """
     52     # Strip off the trailing newline
---> 53     encoded = binascii.b2a_base64(s)[:-1]
     54     if altchars is not None:
     55         return _translate(encoded, {'+': altchars[0], '/': altchars[1]})

UnicodeEncodeError: 'ascii' codec can't encode character u'\xf8' in position 272: ordinal not in range(128)

In [69]: response_dict['content'].encode('base64')
---------------------------------------------------------------------------
UnicodeEncodeError                        Traceback (most recent call last)
C:\...\<ipython-input-69-7fd349f35f04> in <module>()
----> 1 response_dict['content'].encode('base64')

C:\...\base64_codec.pyc in base64_encode(input, errors)
     22     """
     23     assert errors == 'strict'
---> 24     output = base64.encodestring(input)
     25     return (output, len(input))
     26

C:\Python27\Lib\base64.pyc in encodestring(s)
    313     for i in range(0, len(s), MAXBINSIZE):
    314         chunk = s[i : i + MAXBINSIZE]
--> 315         pieces.append(binascii.b2a_base64(chunk))
    316     return "".join(pieces)
    317

UnicodeEncodeError: 'ascii' codec can't encode character u'\xf8' in position 44: ordinal not in range(128)

我觉得这有点令人惊讶,因为 248 在无符号字节的范围内(并且可以保存在字节字符串中),但我真正的问题是:编码这个字符串的最佳或正确方法是什么?

我目前的解决方法是:

In [74]: byte_string = ''.join(map(compose(chr, ord), response_dict['content']))

In [75]: byte_string[272]
Out[75]: '\xf8'

这似乎可以正常工作,并且结果byte_string能够进行 base64 编码,但似乎应该有更好的方法。有没有?

4

5 回答 5

18

你有一个unicode你想要base64编码的字符串。问题是b64encode()它只适用于字节,而不是字符。因此,您需要将您的unicode字符串(这是一系列抽象 Unicode 代码点)转换为字节字符串。

将抽象的 Unicode 字符串映射到具体的字节序列称为编码。Python 支持多种编码;我建议使用广泛使用的 UTF-8 编码:

byte_string = response_dict['content'].encode('utf-8')

unicode请注意,解码字节的人还需要知道使用哪种编码通过互补decode()函数取回字符串:

# Decode
decoded = byte_string.decode('utf-8')

了解更多关于 Unicode 和编码的一个很好的起点是Python 文档,以及Joel Spolsky 的这篇文章

于 2012-03-05T19:06:34.380 回答
5

我建议在 base64 编码之前先将其编码为 UTF-8 之类的东西:

In [12]: my_unicode = u'\xf8'

In [13]: my_utf8 = my_unicode.encode('utf-8')

In [15]: base64.b64encode(my_utf8)
Out[15]: 'w7g='
于 2012-03-05T19:06:16.630 回答
3

由于您使用的是二进制数据,因此我不确定使用 utf-8 编码是否是个好主意。我想这取决于您打算如何使用 base64 编码表示。我认为如果您可以将数据作为字节字符串而不是 unicode 字符串检索可能会更好。我从未使用过 requests 库,但浏览文档表明这是可能的。有部分讨论“二进制响应内容”和“原始响应内容”。

于 2012-03-05T19:16:58.273 回答
1

应该可以将响应作为二进制字节获取并完全跳过解码和编码步骤。总是有可能requests会选择在往返过程中丢失一些数据或错误的编码。

这部分称为“二进制响应内容”的文档似乎非常适合您的问题。

于 2012-03-05T20:28:43.290 回答
0

如果它是二进制数据......为什么要编码/解码呢?特别是“base64.encodestring”部分。下面是我如何将图像编码为 base64 以直接添加到我的 python 代码中,而不是使用额外的文件。2.7.2 顺便说一句

import base64
iconfile = open("blah.icon","rb")
icondata = iconfile.read()
icondata = base64.b64encode(icondata)
于 2012-03-05T22:26:57.240 回答