经过多年不情愿地将刮板编码为正则表达式和 BeautifulSoup 等的混合体后,我找到了 Scrapy,我几乎把它当作今年送给自己的圣诞礼物!它使用起来很自然,而且它似乎是为了让几乎所有东西都变得优雅和可重复使用而构建的。
但是我处于一种我不知道如何解决的情况:我的蜘蛛抓取并抓取了一个列表页面 A,我从中生成了一组项目。但是对于每个项目,我需要获取一个独特的补充链接(由一些抓取的信息构成,但不是明确的 Scrapy 可以遵循的页面上的链接)以获得额外的信息。
我的问题分为两部分:在抓取过程之外获取 URL 的协议是什么?如何以优雅的方式从多个来源构建项目?
在 StackOverflow 上的上一个问题中已经部分地询问(并回答了)这个问题。但我更感兴趣的是在这个用例中 Scrapy 的哲学应该是什么——肯定不是不可预见的可能性?我想知道这是否是管道注定要用于的事情之一(从主要信息推导出的辅助来源添加信息是“后处理”实例),但是最好的方法是什么?不是完全打乱了 Scrapy 高效的异步组织吗?