python - 读取bzip2文件时如何获取内部位置

Question

我有一个脚本来解压缩和解析包含在一堆非常大的 bzip2 压缩文件中的数据。由于这可能需要一段时间，我想有一些方法来监控进度。我知道我可以使用获取文件大小os.path.getsize()，但会bz2.BZ2File.tell()返回未压缩数据中的位置。有什么方法可以获取未压缩文件中的当前位置，以便我可以监控进度？

如果有一个等效于 Java 的 python ，则可以加分ProgressMonitorInputStream。

score 0 · Accepted Answer

如果您只需要解析bziped文件中的数据，我认为应该可以避免在阅读之前解压缩文件。我没有在 bzip 上测试过它，而是在 gziped 文件上测试过。我希望这也适用于 bziped 文件。

参见例如：如何有效地在 python 中编写 csv？.

score 0 · Accepted Answer

这是我想出的似乎可行的解决方案。

import bz2

class SimpleBZ2File(object):

    def __init__(self,path,readsize=1024):
        self.decomp = bz2.BZ2Decompressor()
        self.rawinput = open(path,'rb')
        self.eof = False
        self.readsize = readsize
        self.leftover = ''

    def tell(self):
        return self.rawinput.tell()

    def __iter__(self):
        while not self.eof:
            rawdata = self.rawinput.read(self.readsize)
            if rawdata == '':
                self.eof = True
            else:
                data = self.decomp.decompress(rawdata)
                if not data:
                    continue #we need to supply more raw to decompress
                newlines = list(data.splitlines(True))
                yield self.leftover + newlines[0]
                self.leftover = ''
                for l in newlines[1:-1]:
                    yield l
                if newlines[-1].endswith('\n'):
                    yield newlines[-1]
                else:
                    self.leftover = newlines[-1]
        if self.leftover:
            yield self.leftover
        self.rawinput.close()

python - 读取bzip2文件时如何获取内部位置

2 回答 2

Related

Reference