Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
现在我想用scrapy和celery完成一个分布式刮板,我目前的想法是使用主从方法,有人能告诉我这是个好主意吗?有没有一个好的开源项目?
当我实现分布式爬行设置时,我在 redis 的帮助下实现了这一点。这是我的做法。
我有一个要抓取的域列表。我会将这些域上传到 redis。在我的项目中,我有 30K 域可以从中抓取数据。
使用 redis-py 客户端与 redis 对话,并将每个 url 提供给 scrapy。