在我的数据库中混合了一些错误的 ascii 代码,如何正确连接这些字符串?
我的示例情况是这样的(一些 ascii 字符大于 128):
>>> s=b'\xb0'
>>> addstr='read '+s
>>> print addstr
read ░
>>> addstr.encode('ascii','ignore')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xb0 in position 5: ordinal
not in range(128)
>>> addstr.encode('utf_8')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xb0 in position 5: ordinal
not in range(128)
我可以:
>>> addstr.decode("windows-1252").encode('utf-8')
'read \xc2\xb0'
但你可以看到 windows-1252 编码会改变我的性格。
我想将 addstr 转换为 unicode?怎么做?