我正在尝试阅读包含以下内容的pdf文件:
%PDF-1.4\n%âãÏÓ
如果我用 open 读取它,它可以工作,但如果我尝试使用 codecs.open(filename, encoding="utf8", mode="rb") 获取 unicode 字符串,我得到以下异常:
UnicodeDecodeError: 'utf8' codec can't decode byte 0xe2 in position 10: invalid continuation byte
您知道从该文件的内容中获取 unicode 字符串的方法吗?
PS:我正在使用python 2.7