python - Scrapy：产生表单请求不打印？

Question

我正在写一个蜘蛛来报废网站：

第一个 url www.parenturl.com 调用 parse 函数，从那里我提取了 url www.childurl.com，我有一个回调到 parse2 函数并返回 dict。

问题 1）我需要将 dict 值与其他 7 个值一起存储在 mysql 数据库中，这些值是我在解析函数中从父 url 中提取的？（response_url 不打印）

def parse(self, response):
    for i in range(0,2):
        url = response.xpath('//*[@id="response"]').extract()
        response_url=yield SplashFormRequest(url,method='GET',callback=self.parse2)
        print response_url # prints None

def parse2(self, response):
    dict = {'url': response.url}
    return dict

score 1 · Accepted Answer

由于scrapy的异步特性，将第二个回调的结果存储在蜘蛛对象上然后打印它并不能保证工作。相反，您可以尝试将其他数据传递给回调函数，例如：

def parse(self, response):
    for i in range(0, 2):
        item = ...  # extract some information
        url = ...  # construct URL
        yield SplashFormRequest(url, callback=self.parse2, meta={'item': item})

def parse2(self, response):
    item = response.meta['item']  # get data from previous parsing method
    item.update({'key': 'value'})  # add more information
    print item  # do something with the "complete" item
    return item

score 1 · Accepted Answer

您不能将 yield 调用等同于变量，因为它的作用类似于返回调用。

尝试删除它

def parse(self, response):
    self.results = []
    for i in range(0,2):
        url = response.xpath('//*[@id="response"]').extract()
        request = SplashFormRequest(url,method='GET',callback=self.parse2)
        yield request
    print self.results

def parse2(self, response):
    # print response here !
    dict = {'url': response.url}
    self.results.append(dict)

python - Scrapy：产生表单请求不打印？

2 回答 2

Related

Reference