我有一个大的 .xz 文件(几 GB)。它充满了纯文本。我想处理文本以创建自定义数据集。我想逐行阅读它,因为它太大了。有人知道怎么做吗?
我已经尝试过 如何在内存中打开和读取 LZMA 文件,但它不起作用。
编辑:我收到此错误“ascii”编解码器无法解码位置 0 的字节 0xfd:序数不在范围内(128)
for line in uncompressed:
从链接上线
EDIT2:我的代码(使用 python 3.5)
with open(filename) as compressed:
with lzma.LZMAFile(compressed) as uncompressed:
for line in uncompressed:
print(line)