我正在尝试创建一个网络爬虫,给定一些起始 url,提取所有元素并跟随它们,以便提取里面的文本和 . 我正在运行一个 Django 应用程序,给定一个查询字符串,它返回以前存储在 Mysql 数据库中的所有项目。在我看来,最好的选择是使用 Scrapy,给他一些起始 url,他可以通过简单地提取页面中的所有 url 来找到其他的 url,然后他会跟着他们提取这些页面的内容。
- 是否可以将先前提取的数据插入到 Mysql 数据库中(因为我在 scrapy.org 上没有找到任何有关此的信息)?
- 是否有内置函数来决定扫描的“深度”?