python - 将 ☺ 编码为 IBM-437 失败，而其他有效字符（如 é）成功

Question

☺：

>>> bytes('☺','ibm437')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/lib/python3.3/encodings/cp437.py", line 12, in encode
    return codecs.charmap_encode(input,errors,encoding_map)
UnicodeEncodeError: 'charmap' codec can't encode character '\u263a' in position 0: character maps to <undefined>

与 é 相反，它有效：

>>> bytes('é','ibm437')
b'\x82'

我希望☺能把我带回来b'\x01'。我怎样才能做到这一点？

代码页 437 的图像。

score 10 · Accepted Answer

IBM-437 有点特殊，它不仅是一个代码页（即定义了字节值 128-255 应该发生的情况），而且还重新定义了一些 ASCII 控制字符，但仅限于某些上下文。Python 将这些有问题的代码点映射到控制字符，而不是它们在某些上下文中显示的可见字符。

要进行转换，您可以使用以下辅助方法：

ibm437_visible = lambda byt: byt.decode('ibm437').translate({
    0x01: "\u263A", 0x02: "\u263B", 0x03: "\u2665", 0x04: "\u2666",
    0x05: "\u2663", 0x06: "\u2660", 0x07: "\u2022", 0x08: "\u25D8",
    0x09: "\u25CB", 0x0a: "\u25D9", 0x0b: "\u2642", 0x0c: "\u2640",
    0x0d: "\u266A", 0x0e: "\u266B", 0x0f: "\u263C", 0x10: "\u25BA",
    0x11: "\u25C4", 0x12: "\u2195", 0x13: "\u203C", 0x14: "\u00B6",
    0x15: "\u00A7", 0x16: "\u25AC", 0x17: "\u21A8", 0x18: "\u2191", 
    0x19: "\u2193", 0x1a: "\u2192", 0x1b: "\u2190", 0x1c: "\u221F",
    0x1d: "\u2194", 0x1e: "\u25B2", 0x1f: "\u25BC", 0x7f: "\u2302",
})
assert ibm437_visible(b'\x01') == '☺'

python - 将 ☺ 编码为 IBM-437 失败，而其他有效字符（如 é）成功

1 回答 1

Related

Reference