我目前正在编写一个网络爬虫(使用 python 框架scrapy)。
最近我不得不实现一个暂停/恢复系统。
我实现的解决方案是最简单的一种,基本上,当它们被安排时存储链接,并在它们实际存在时将它们标记为“已处理”。
因此,当恢复蜘蛛时,我能够获取这些链接(显然存储的不仅仅是 URL、深度值、链接所属的域等......),到目前为止一切正常。
现在,我一直在使用 mysql 表来处理这些存储操作,主要用于快速原型设计。
现在我想知道如何优化它,因为我相信数据库不应该是这里唯一可用的选项。通过优化,我的意思是,使用一个非常简单和轻量级的系统,同时仍然能够处理在短时间内写入的大量数据
目前,它应该能够处理几十个域的爬取,这意味着每秒存储几千个链接......
提前感谢您的建议