python - 用内存中的单个文件提取 bz2 文件

Question

我有一个压缩成 bz2 文件的 csv 文件，我试图从网站加载、解压缩并写入本地 csv 文件

# Get zip file from website
archive = StringIO()
url_data = urllib2.urlopen(url)
archive.write(url_data.read())

# Extract the training data
data = bz2.decompress(archive.read())

# Write to csv
output_file = open('dataset_' + mode + '.csv', 'w')
output_file.write(data)

在解压缩呼叫中，我得到IOError: invalid data stream. 请注意，存档中包含的 csv 文件有很多字符，可能会导致一些问题。特别是，如果我尝试将文件内容放在 unicode 中，我会收到一个关于 not able to decode 的错误0xfd。我在存档中只有一个文件，但我想知道是否由于未提取特定文件而导致某些事情发生。

有任何想法吗？

score 2 · Accepted Answer

我怀疑您收到此错误是因为您提供decompress()函数的流不是有效的 bz2 流。

您还必须StringIO在写入缓冲区后“倒回”缓冲区。请参阅下面的注释中的注释。seek()如果 URL 指向有效的 bz2 文件，则以下代码（与您的代码相同，但导入和修复除外）有效。

from StringIO import StringIO
import urllib2
import bz2

# Get zip file from website
url = "http://www.7-zip.org/a/7z920.tar.bz2"  # just an example bz2 file

archive = StringIO()

# in case the request fails (e.g. 404, 500), this will raise
# a `urllib2.HTTPError`
url_data = urllib2.urlopen(url)

archive.write(url_data.read())

# will print how much compressed data you have buffered.
print "Length of file:", archive.tell()

# important!... make sure to reset the file descriptor read position
# to the start of the file.
archive.seek(0)

# Extract the training data
data = bz2.decompress(archive.read())

# Write to csv
output_file = open('output_file', 'w')
output_file.write(data)

回复：编码问题

通常，字符编码错误会生成UnicodeError（或其表亲之一），但不会生成IOError. IOError表明输入有问题，例如截断，或者某些错误会阻止解压缩器完全完成其工作。

您已经从问题中省略了导入，StringIOand cStringIO（根据文档）之间的细微差别之一是cStringIO不能使用无法转换为 ascii 的 unicode 字符串。这似乎不再成立（至少在我的测试中），但它可能正在发挥作用。

与 StringIO 模块不同，此模块 (cStringIO) 无法接受无法编码为纯 ASCII 字符串的 Unicode 字符串。

python - 用内存中的单个文件提取 bz2 文件

1 回答 1

Related

Reference