我正在寻找一个 Scrapy Spider
,它不是获取 URL 并抓取它们,而是获取一个WARC
文件(最好来自 S3)作为输入并将内容发送到parse
方法。
我实际上需要跳过所有下载阶段,这意味着start_requests
我想从方法返回一个Response
然后发送到该parse
方法。
这是我到目前为止所拥有的:
class WarcSpider(Spider):
name = "warc_spider"
def start_requests(self):
f = warc.WARCFile(fileobj=gzip.open("file.war.gz"))
for record in f:
if record.type == "response":
payload = record.payload.read()
headers, body = payload.split('\r\n\r\n', 1)
url=record['WARC-Target-URI']
yield Response(url=url, status=200, body=body, headers=headers)
def parse(self, response):
#code that creates item
pass
有什么想法Scarpy
吗?