3

我正在构建一个项目,我需要一个网络爬虫来爬取不同网页的列表。此列表可以随时更改。如何用scrapy最好地实现这一点?我应该为所有网站创建一个蜘蛛还是动态创建蜘蛛?

我已经阅读了有关scrapyd的内容,我想动态创建蜘蛛是最好的方法。我需要一个关于如何实现它的提示。

4

1 回答 1

2

如果解析逻辑相同,则有两种方法,

  1. 对于大量网页,您可以在start_requests方法或构造函数中创建一个列表并在开始时读取该列表并将该列表分配给start_urls
  2. 您可以将网页链接作为参数从命令行参数传递给蜘蛛,在 requests_method 或构造函数中相同,您可以访问此参数并将其分配给start_urls

在scrapy中传递参数

    scrapy crawl spider_name -a start_url=your_url

在 scrapyd 中,将 -a 替换为 -d

于 2014-09-12T07:43:34.590 回答