我正在尝试解码 shift-jis 编码的字符串,如下所示:
string.decode('shift-jis').encode('utf-8')
能够在我的程序中查看它。
当我遇到 2 个 shift-jis 字符时,十六进制“0x87 0x54”和“0x87 0x55”,我收到此错误:
UnicodeDecodeError: 'shift_jis' codec can't decode bytes in position 12-13: illegal multibyte sequence
但我确定它们是有效的 shift-jis 字符:http ://www.rikai.com/library/kanjitables/kanji_codes.sjis.shtml
我还注意到这些字符在我的 shift-jis 文本编辑器中显示为黑框,这意味着它们无法识别。所以这两个字符有一些特别之处,导致我的编辑器和 Python 解码器失败。帮助?
(抱歉,我无法发布示例字符串,因为当这些字符存在时,它不会从那里添加到剪贴板,并且还会自动转换为 unicode。不过,我为它们发布了十六进制值。)