python - 在 python 中使用特定文本编码打开（可能是 gzip 压缩）文件的通用方法

Question

我正在编写一段代码，它打开一个（可能是 gzip 压缩的）文本文件，该文件可在 Python 2 和 Python 3 中使用。

如果我只有普通的文本文件（未压缩），我可以这样做：

import io
for line in io.open(file_name, encoding='some_encoding'):
    pass

如果我不关心解码（在 python 2/3 中使用字符串/字节）

if file_name.endswith('.gz'):
    file_obj = gzip.open(file_name)
else:
    file_obj = open(file_name)

for line in file_obj:
    pass

我怎样才能顺利处理这两种情况？换句话说，如何将 decode 与 gzip.open() 平滑集成？

score 1 · Accepted Answer

我对此进行了简要测试，它似乎做了正确的事情。你可以提供一个文件 obj 到gzip.GzipFile和到io.open所以

import io
import gzip

f_obj = open('file.gz','r')
io_obj = io.open(f_obj.fileno(), encoding='UTF-8')
gzip_obj = gzip.GzipFile(fileobj=io_obj, mode='r')
gzip_obj.read()

这给了我一个UnicodeDecodeError因为我正在阅读的文件实际上不是 UTF-8，所以它似乎在做正确的事情。

出于某种原因，如果我使用直接io.open打开表示该文件不是压缩文件。file.gzgzip

更新是的，这很愚蠢，流是错误的开始方式。

测试文件

ö
ä
u
y

以下代码使用定义的编解码器对压缩文件进行解码

import codecs
import gzip
gz_fh = gzip.open('file.gz')
ascii = codecs.getreader('ASCII')
utf8 = codecs.getreader('UTF-8') 
ascii_fh = ascii(gz_fh)
utf8_fh = utf8(gz_fh)
ascii_fh.readlines()
-> UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 0: ordinal not in range(128)

utf8_fh.readlines()
-> [u'\xf6\n', u'\xe4\n', u'u\n', u'y']

需要一个流，codecs.StreamReader因此您应该能够将压缩或未压缩的文件传递给它。

http://docs.python.org/library/codecs.html#codecs

python - 在 python 中使用特定文本编码打开（可能是 gzip 压缩）文件的通用方法

1 回答 1

Related

Reference