所以我写了一个蜘蛛,它从网页中提取某些所需的链接,并将 URL、链接文本和其他不一定包含在<a>
标签本身中的信息放入每个链接的项目中。
我应该如何将此项目传递给另一个抓取该项目中提供的 URL 的蜘蛛?
所以我写了一个蜘蛛,它从网页中提取某些所需的链接,并将 URL、链接文本和其他不一定包含在<a>
标签本身中的信息放入每个链接的项目中。
我应该如何将此项目传递给另一个抓取该项目中提供的 URL 的蜘蛛?
This question has been asked many times. Below are some links on this site that answer your question. Some answer it directly ie passing items to another function but you may realise that you do not need to do it that way, so other methods are linked to show whats possible.
Using multiple spiders at in the project in Scrapy
Scrapy - parse a page to extract items - then follow and store item url contents