我正在尝试编写一个蜘蛛来根据索引页面上的数据或信息来爬取某些页面。然后将结果存储在数据库中。
例如,假设我想抓取 stackoverflow.com/questions/tagged/scrapy 我会浏览索引页面,如果问题不在我的数据库中,那么我会将答案计数存储在数据库中,然后按照问题的链接并抓取该页面。
如果问题已经在数据库中,但答案的数量大于数据库中的答案数量:再次抓取该页面。
如果问题已经在数据库中并且答案计数器相同:跳过此问题。
目前,我可以在索引页面上获取所有链接和答案计数(在此示例中)。但我不知道如何让蜘蛛根据答案计数跟随问题页面的链接。
有没有办法用一个蜘蛛而不是两个蜘蛛来做到这一点,一个蜘蛛获取索引页面上的所有链接,将数据与数据库进行比较,导出一个 json 或 csv 文件,然后将其传递给另一个蜘蛛抓取问题页面?