8

我有一个 python 方法,它需要从 API 收集大量数据,将其格式化为 CSV,压缩它并将结果流回。

我一直在谷歌搜索,我能找到的每个解决方案要么需要写入临时文件,要么将整个存档保存在内存中。

内存绝对不是一种选择,因为我会很快得到 OOM。写入临时文件有很多与之相关的问题(此框目前仅使用磁盘存储日志,下载开始前的准备时间要长得多,文件清理问题等)。更不用说它只是令人讨厌的事实。

我正在寻找一个图书馆,它可以让我做类似的事情......

C = Compressor(outputstream)
C.BeginFile('Data.csv')
for D in Api.StreamResults():
    C.Write(D)
C.CloseFile()
C.Close()

换句话说,在我写入数据时将写入输出流的东西。

我已经设法在 .Net 和 PHP 中做到这一点 - 但我不知道如何在 Python 中处理它。

从长远来看,通过“大量”数据,我的意思是我需要能够处理高达 ~10 Gb 的(原始明文)数据。这是大数据系统导出/转储过程的一部分。

4

2 回答 2

10

正如gzip 模块文档所述,您可以将类似文件的对象传递给GzipFile构造函数。由于 python 是鸭子类型的,因此您可以自由地实现自己的流,如下所示:

import sys
from gzip import GzipFile

class MyStream(object):
    def write(self, data):
        #write to your stream...
        sys.stdout.write(data) #stdout, for example

gz= GzipFile( fileobj=MyStream(), mode='w'  )
gz.write("something")
于 2013-10-01T16:22:45.613 回答
9

@goncaplopp 的答案很棒,但是如果您在外部运行 gzip,您可以获得更多的并行性。由于您正在收集大量数据,因此可能值得付出额外的努力。您需要为 Windows 找到自己的压缩例程(有几个 gzip 实现,但像 7z 之类的也可以工作)。您还可以尝试使用压缩比 gzip 更多的 lz 之类的东西,具体取决于您需要在系统中优化的其他内容。

import subprocess as subp
import os

class GZipWriter(object):

    def __init__(self, filename):
        self.filename = filename
        self.fp = None

    def __enter__(self):
        self.fp = open(self.filename, 'wb')
        self.proc = subp.Popen(['gzip'], stdin=subp.PIPE, stdout=self.fp)
        return self

    def __exit__(self, type, value, traceback):
        self.close()
        if type:
            os.remove(self.filename)

    def close(self):
        if self.fp:
            self.fp.close()
            self.fp = None

    def write(self, data):
        self.proc.stdin.write(data)

with GZipWriter('sometempfile') as gz:
    for i in range(10):
        gz.write('a'*80+'\n')
于 2013-10-01T16:29:09.280 回答