我正在处理一个已阅读中文维基百科内容的文件,并且显然以某种方式已转换为 UTF-8 但不正确。
import re,urllib
st=u'1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise'
st1= urllib.unquote(st).encode('UTF-8')
st2= urllib.unquote(st)
print st
print st1
print st2
输出是
1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise
1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise
1492: Conquest ▒�¢â▒��¬â▒�▒¹of Paradise
编辑(发现额外信息)
我发现原始格式(无论是什么)都经历了以下转换过程
line[1]=urllib.quote(line[1])
try:
st=urllib.unquote(line[1]).decode("utf-8")
except UnicodeDecodeError:
st=urllib.unquote(line[1]).decode("latin1")
我不知道原始编码(可能是 GBK 或 GB18030),所以我不确定如何恢复正确的文本。这个可以恢复吗?