我已经按照此链接中的说明实施了https://dmorgan.info/posts/common-crawl-python/ 。但是,与本文所述不同,我想抓取整个数据而不是部分数据。所以,在这个代码块中,
def get_partial_warc_file(url, num_bytes=1024 * 10):
with closing(requests.get(url, stream=True)) as r:
buf = StringIO(r.raw.read(num_bytes))
return warc.WARCFile(fileobj=buf, compress=True)
我做了以下更改:
def get_partial_warc_file(url):
with closing(requests.get(url, stream=True)) as r:
buf = StringIO(r.raw.data)
return warc.WARCFile(fileobj=buf, compress=True)
此代码块增加了给定 warc 路径的记录数,但它不会爬取全部记录数。我找不到相同的可能原因。任何帮助,将不胜感激。