python - 恢复失真的中文格式并识别原始中文编码

Question

我正在处理一个已阅读中文维基百科内容的文件，并且显然以某种方式已转换为 UTF-8 但不正确。

import re,urllib
st=u'1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise'
st1= urllib.unquote(st).encode('UTF-8') 
st2= urllib.unquote(st) 
print st
print st1
print st2

输出是

1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise
1492: Conquest â–’ï¿½Â¢Ã¢â–’ï¿½ï¿½Â¬Ã¢â–’ï¿½â–’Â¹of Paradise
1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise

编辑（发现额外信息）
我发现原始格式（无论是什么）都经历了以下转换过程

  line[1]=urllib.quote(line[1])
  try:
      st=urllib.unquote(line[1]).decode("utf-8")
  except UnicodeDecodeError:
      st=urllib.unquote(line[1]).decode("latin1")

我不知道原始编码（可能是 GBK 或 GB18030），所以我不确定如何恢复正确的文本。这个可以恢复吗？

score 1 · Accepted Answer

给定您显示的用于解码传入字节的代码...

尝试解码其中的字节utf-8可能会失败，因为在 utf-8 中有太多无效的字节组合。因此，您的 Unicode 字符串可能来自解码latin1。

还有许多字节不是有效的 latin1 字符，但 Python 2.7 中的快速测试表明它无论如何都会对它们进行解码。这意味着输入字节被保留，但print无法显示它们。

for x in range(256):
    if chr(x).decode('latin1').encode('latin1') != chr(x):
        print x

如果您将正确的代码页放入部件中，则以下内容应该能够恢复它们并解码为正确的代码页decode：

st1 = st.encode('latin1').decode('gb18030')
print st1

python - 恢复失真的中文格式并识别原始中文编码

1 回答 1

Related

Reference