python - 如何从 warc.wet.gz 中提取每个有效载荷？

Question

我一直在尝试从 Common Crawl 的湿文件中提取文本数据。我目前正在使用 Internet Archieve https://github.com/internetarchive/warc的 warc 解析器

import warc
w = warc.open(fileName)
for record in w:
  text = record.payload.read()

但是这种方法提供的数据不到有效载荷中的一半。有没有其他更好的方法可以提供文件中每个有效负载中的所有数据。

score 0 · Accepted Answer

warc 库的 gzip 处理存在错误，导致 warc 无法读取整个 WET 文件。为了克服这个错误，您应该使用 Python 的 gzip 库来动态解压缩文件流，如下所示：

import gzip
import warc
gzip_fobj = gzip.open(wet_file, "r")
warc_fobj = warc.WARCFile(fileobj=gzip_fobj, compress=False)

1 回答 1