python-3.x - 如何在python3中使用lzma（* .warc.xz）压缩warc记录？

Question

我有一份warc记录列表。列表中的每个项目都是这样创建的：

header = warc.WARCHeader({
    "WARC-Type": "response",
    "WARC-Target-URI": "www.somelink.com",
}, defaults=True)
data = "Some string"
record = warc.WARCRecord(header, data.encode('utf-8','replace'))

现在，我使用 *.warc.gz 来存储我的记录，如下所示：

output_file = warc.open("my_file.warc.gz", 'wb')

并像这样写记录：

output_file.write_record(record) # type of record is WARCRecord

但是如何将 lzma 压缩为 *.warc.xz？我尝试在调用warc.open时用xz替换gz，但是python3中的warc不支持这种格式。我找到了这个试验，但我无法用这个来保存 WARCRecord：

output_file = lzma.open("my_file.warc.xz", 'ab', preset=9)
header = warc.WARCHeader({
    "WARC-Type": "response",
    "WARC-Target-URI": "www.somelink.com",
}, defaults=True)
data = "Some string"
record = warc.WARCRecord(header, data.encode('utf-8','replace'))
output_file.write(record)

错误信息是：

TypeError：需要一个类似字节的对象，而不是“WARCRecord”

谢谢你的帮助。

score 2 · Accepted Answer

该类WARCRecord有一个write_to方法，将记录写入文件对象。

您可以使用它将记录写入使用lzma.open().

python-3.x - 如何在python3中使用lzma（* .warc.xz）压缩warc记录？

1 回答 1

Related

Reference