0

我正在尝试创建一个网络爬虫,给定一些起始 url,提取所有元素并跟随它们,以便提取里面的文本和 . 我正在运行一个 Django 应用程序,给定一个查询字符串,它返回以前存储在 Mysql 数据库中的所有项目。在我看来,最好的选择是使用 Scrapy,给他一些起始 url,他可以通过简单地提取页面中的所有 url 来找到其他的 url,然后他会跟着他们提取这些页面的内容。

  1. 是否可以将先前提取的数据插入到 Mysql 数据库中(因为我在 scrapy.org 上没有找到任何有关此的信息)?
  2. 是否有内置函数来决定扫描的“深度”?
4

1 回答 1

1

我只想阅读所有的scrapy文档,可能有更好的方法来做到这一点,但在项目管道中我刚刚在那里保存了数据。对于每个已处理的项目,检查它是否已经在您的 mysql 中,如果没有则保存它!http://doc.scrapy.org/en/latest/topics/item-pipeline.html

阅读“深度”:使用DepthMiddleware。您可以从请求对象中读取它,例如request.meta['depth'].

于 2012-04-10T13:24:43.543 回答