11

我有一个数据库(mysql),我想在其中存储腌制数据。

数据可以是例如字典,其中可能包含 unicode,例如

data = {1 : u'é'}

并且数据库(mysql)在utf-8中。

当我腌制时,

import pickle
pickled_data = pickle.dumps(data)
print type(pickled_data) # returns <type 'str'>

结果 pickled_data 是一个字符串。

当我尝试将其存储在数据库中(例如在文本字段中)时,这可能会导致问题。特别是,我在某个时候得到了一个

UnicodeDecodeError "'utf8' codec can't decode byte 0xe9 in position X"

尝试将 pickled_data 保存在数据库中时。这是有道理的,因为 pickled_data 可以有非 utf-8 字符。我的问题是如何将 pickled_data 存储在 utf-8 数据库中?

我看到两个可能的候选人:

  1. 将 pickle.dump 的结果编码为 utf-8 并存储。当我想pickle.load 时,我必须对其进行解码。

  2. 以二进制格式存储腌制字符串(如何?),这会强制所有字符都在 ascii 内。

我的问题是,从长远来看,我没有看到选择其中一个选项的后果是什么。由于改变已经需要一些努力,所以我想就这个问题征求意见,寻求最终更好的候选人。

(PS 这例如在Django中很有用)

4

1 回答 1

17

Pickle 数据是不透明的二进制数据,即使您使用协议版本 0:

>>> pickle.dumps(data, 0)
'(dp0\nI1\nV\xe9\np1\ns.'

当您尝试将其存储在 a 中TextField时,Django 将尝试将该数据解码为 UTF8 以存储它;这就是失败的原因,因为这不是 UTF-8 编码的数据;它是二进制数据:

>>> pickled_data.decode('utf8')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/Users/mj/Development/venvs/stackoverflow-2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xe9 in position 9: invalid continuation byte

解决方案是不要尝试将其存储在TextField. 使用 aBinaryField代替:

存储原始二进制数据的字段。它只支持bytes赋值。请注意,此字段的功能有限。例如,无法根据 BinaryField 值过滤查询集。

您有一个bytes值(Python 2 字符串是字节字符串,bytes在 Python 3 中重命名为)。

如果您坚持将数据存储在文本字段中,请将其显式解码为latin1; Latin 1 编解码器将字节一对一地映射到 Unicode 代码点:

>>> pickled_data.decode('latin1')
u'(dp0\nI1\nV\xe9\np1\ns.'

并确保在再次 unpickling 之前再次对其进行编码:

>>> encoded = pickled_data.decode('latin1')
>>> pickle.loads(encoded)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/Users/mj/Development/Libraries/buildout.python/parts/opt/lib/python2.7/pickle.py", line 1381, in loads
    file = StringIO(str)
UnicodeEncodeError: 'ascii' codec can't encode character u'\xe9' in position 9: ordinal not in range(128)
>>> pickle.loads(encoded.encode('latin1'))
{1: u'\xe9'}

请注意,如果您让该值进入浏览器并在文本字段中再次返回,则浏览器可能已经替换了该数据中的字符。例如, Internet Explorer 会将\n字符替换\r\n为 ,因为它假定它正在处理文本。

并不是说您在任何情况下都应该允许从网络连接中接受 pickle 数据,因为这是一个等待利用的安全漏洞

于 2013-06-25T21:10:40.233 回答