1

现在我想用scrapy和celery完成一个分布式刮板,我目前的想法是使用主从方法,有人能告诉我这是个好主意吗?有没有一个好的开源项目?

4

1 回答 1

2

当我实现分布式爬行设置时,我在 redis 的帮助下实现了这一点。这是我的做法。

我有一个要抓取的域列表。我会将这些域上传到 redis。在我的项目中,我有 30K 域可以从中抓取数据。

使用 redis-py 客户端与 redis 对话,并将每个 url 提供给 scrapy。

于 2013-03-28T11:11:17.627 回答