我想设计一种使用 python 的算法,它可以像这个和这个一样抓取数千个页面,收集所有数据并将其插入 MySQL 数据库。该脚本将每周或每两周运行一次,以更新添加到每个单独页面的任何新信息的数据库。
理想情况下,我想要一个易于使用的刮板,用于表结构化数据以及没有唯一标识符的数据(即 id 和 classes 属性)。
我应该使用哪个刮板插件?BeautifulSoup、Scrapy还是机械化?
是否有任何特定的教程/书籍我应该寻找这个期望的结果?
从长远来看,我将实现一个通过查询数据库来处理所有这些数据的移动应用程序。