我想将文件从 zip 提取到特定路径,忽略存档中的文件路径。这在 Python 2.6 中非常容易(我的文档字符串比代码长)
import shutil
import zipfile
def extract_from_zip(name, dest_path, zip_file):
"""Similar to zipfile.ZipFile.extract but extracts the file given by name
from the zip_file (instance of zipfile.ZipFile) to the given dest_path
*ignoring* the filename path given in the archive completely
instead of preserving it as extract does.
"""
dest_file = open(dest_path, 'wb')
archived_file = zip_file.open(name)
shutil.copyfileobj(archived_file, dest_file)
extract_from_zip('path/to/file.dat', 'output.txt', zipfile.ZipFile('test.zip', 'r'))
但在 Python 2.5 中,ZipFile.open方法不可用。我在 stackoverflow 上找不到解决方案,但是这个论坛帖子有一个很好的解决方案,它利用ZipInfo.file_offset
zip 在 zip 中寻找正确的点并zlib.decompressobj
从那里解压缩字节。不幸ZipInfo.file_offset
的是在 Python 2.5 中被删除了!
所以,鉴于我们在 Python 2.5 中ZipInfo.header_offset
只有 . 使用维基百科作为参考(我知道)我想出了这个更长且不是很优雅的解决方案。
import zipfile
import zlib
def extract_from_zip(name, dest_path, zip_file):
"""Python 2.5 version :("""
dest_file = open(dest_path, 'wb')
info = zip_file.getinfo(name)
if info.compress_type == zipfile.ZIP_STORED:
decoder = None
elif info.compress_type == zipfile.ZIP_DEFLATED:
decoder = zlib.decompressobj(-zlib.MAX_WBITS)
else:
raise zipfile.BadZipFile("Unrecognized compression method")
# Seek over the fixed size fields to the "file name length" field in
# the file header (26 bytes). Unpack this and the "extra field length"
# field ourselves as info.extra doesn't seem to be the correct length.
zip_file.fp.seek(info.header_offset + 26)
file_name_len, extra_len = struct.unpack("<HH", zip_file.fp.read(4))
zip_file.fp.seek(info.header_offset + 30 + file_name_len + extra_len)
bytes_to_read = info.compress_size
while True:
buff = zip_file.fp.read(min(bytes_to_read, 102400))
if not buff:
break
bytes_to_read -= len(buff)
if decoder:
buff = decoder.decompress(buff)
dest_file.write(buff)
if decoder:
dest_file.write(decoder.decompress('Z'))
dest_file.write(decoder.flush())
请注意我是如何解压并读取给出额外字段长度的字段的,因为调用len
该ZipInfo.extra
属性会减少 4 个字节,从而导致偏移量计算不正确。也许我在这里遗漏了一些东西?
任何人都可以改进 Python 2.5 的这个解决方案吗?
编辑:我应该说,克里斯亚当斯建议的明显解决方案
dest_file.write(zip_file.read(name))
对于 zip 中包含的任何合理大小的文件,它都会失败,MemoryError
因为它会尝试将整个文件一次性放入内存中。我有大文件,所以我需要将内容流式传输到磁盘。
此外,升级 Python 是显而易见的解决方案,但它完全不在我的掌控之中,而且基本上是不可能的。