我一直在尝试从 Common Crawl 的湿文件中提取文本数据。我目前正在使用 Internet Archieve https://github.com/internetarchive/warc的 warc 解析器
import warc
w = warc.open(fileName)
for record in w:
text = record.payload.read()
但是这种方法提供的数据不到有效载荷中的一半。有没有其他更好的方法可以提供文件中每个有效负载中的所有数据。