我有这个我的文件(我已经粘贴了,我希望有问题的相关数据在复制/粘贴中幸存下来)。我尝试使用以下命令读取该文件:
import codecs
codecs.open('myfile', 'r', 'utf-8').read()
但这给出了:
UnicodeDecodeError: 'utf8' codec can't decode byte 0xe5 in position 7128: invalid continuation byte
如果我检查文件:
» file myfile
myfile: C source, ISO-8859 text
- 如何在 python 中读取那种文件(ISO-8859)?
- 在一般情况下,我怎么知道文件是如何编码的?
很多时候我都在处理不是我生成的文件(系统文件、从互联网下载的随机文件、供应商提供的随机文件、客户......):这些文件没有提供它们编码的线索正在使用。在多元文化环境(欧洲)中,很难知道这些文件是如何编码的。大多数情况下,即使是提供文件的人也对编码一无所知,这可能是由选择的编辑器/工具在幕后发生的。如何确定逐个文件使用的编码?