python-requests - requests.get() 不抓取给定warc路径的整个常见抓取记录

翻译自：https://stackoverflow.com/questions/45604803 2017-08-10T04:58:50.367

171 次

我已经按照此链接中的说明实施了https://dmorgan.info/posts/common-crawl-python/ 。但是，与本文所述不同，我想抓取整个数据而不是部分数据。所以，在这个代码块中，

def get_partial_warc_file(url, num_bytes=1024 * 10):
with closing(requests.get(url, stream=True)) as r:
    buf = StringIO(r.raw.read(num_bytes))
return warc.WARCFile(fileobj=buf, compress=True)

我做了以下更改：

def get_partial_warc_file(url):
with closing(requests.get(url, stream=True)) as r:
    buf = StringIO(r.raw.data)
return warc.WARCFile(fileobj=buf, compress=True)

此代码块增加了给定 warc 路径的记录数，但它不会爬取全部记录数。我找不到相同的可能原因。任何帮助，将不胜感激。

python-requests - requests.get() 不抓取给定warc路径的整个常见抓取记录

0 回答 0

Related

Reference