3

我一直在尝试从 Common Crawl 的湿文件中提取文本数据。我目前正在使用 Internet Archieve https://github.com/internetarchive/warc的 warc 解析器

import warc
w = warc.open(fileName)
for record in w:
  text = record.payload.read()

但是这种方法提供的数据不到有效载荷中的一半。有没有其他更好的方法可以提供文件中每个有效负载中的所有数据。

4

1 回答 1

0

warc 库的 gzip 处理存在错误,导致 warc 无法读取整个 WET 文件。为了克服这个错误,您应该使用 Python 的 gzip 库来动态解压缩文件流,如下所示:

import gzip
import warc
gzip_fobj = gzip.open(wet_file, "r")
warc_fobj = warc.WARCFile(fileobj=gzip_fobj, compress=False)
于 2022-02-17T09:02:40.920 回答