python - 如何将 Scrapy 与 Mysql 结合使用？

Question

我正在尝试创建一个网络爬虫，给定一些起始 url，提取所有元素并跟随它们，以便提取里面的文本和 . 我正在运行一个 Django 应用程序，给定一个查询字符串，它返回以前存储在 Mysql 数据库中的所有项目。在我看来，最好的选择是使用 Scrapy，给他一些起始 url，他可以通过简单地提取页面中的所有 url 来找到其他的 url，然后他会跟着他们提取这些页面的内容。

是否可以将先前提取的数据插入到 Mysql 数据库中（因为我在 scrapy.org 上没有找到任何有关此的信息）？
是否有内置函数来决定扫描的“深度”？

score 1 · Accepted Answer

我只想阅读所有的scrapy文档，可能有更好的方法来做到这一点，但在项目管道中我刚刚在那里保存了数据。对于每个已处理的项目，检查它是否已经在您的 mysql 中，如果没有则保存它！http://doc.scrapy.org/en/latest/topics/item-pipeline.html

阅读“深度”：使用DepthMiddleware。您可以从请求对象中读取它，例如request.meta['depth'].

python - 如何将 Scrapy 与 Mysql 结合使用？

1 回答 1

Related

Reference