我一般是scrapy和python的新手,我正在尝试制作一个从页面中提取链接然后编辑这些链接然后遍历它们中的每一个的scraper。我正在使用scrapy的剧作家。
这就是我所在的位置,但由于某种原因,它只刮掉了第一个链接。
def parse(self, response):
for link in response.css('div.som a::attr(href)'):
yield response.follow(link.get().replace('docs', 'www').replace('com/', 'com/#'),
cookies={'__utms': '265273107'},
meta=dict(
playwright=True,
playwright_include_page=True,
playwright_page_coroutines=[
PageCoroutine('wait_for_selector', 'span#pple_numbers')]
),
callback=self.parse_c)
async def parse_c(self, response):
yield {
'text': response.css('div.pple_numb span::text').getall()