在过去的一个月里,我一直在使用 Scrapy 进行我已经开始的网络爬虫项目。
该项目涉及从主页可访问的单个域名中提取所有网页的完整文档内容。使用 Scrapy 编写这个非常容易,但是它运行得太慢了。2-3天我只能拉下10万页。
我已经意识到我最初的想法是 Scrapy 不适合这种类型的爬行,这正在暴露自己。
我已经开始将目光集中在 Nutch 和Methabot上,以期获得更好的性能。在抓取过程中我需要存储的唯一数据是网页的全部内容,最好是页面上的所有链接(但即使这样也可以在后处理中完成)。
我正在寻找一个快速且采用许多并行请求的爬虫。