我做了很多网络爬虫,对于每个项目,我发现自己重写了一种框架/后端,包括将原始页面/文件保存到命名空间目录中,有时甚至是一个数据库来跟踪日期、错误消息等。
我想知道是否已经为此类任务构建了任何此类框架。我并不是指实际的抓取任务本身,它是使用诸如 Nokogiri/Mechanize/等 HTML 解析器的组合……而是用于管理抓取器及其收集的数据。对于我所做的一些任务,数据收集有几个阶段。
例如:
- 遍历站点,下载原始页面
- 解析存储的原始页面,提取数据
- 清理数据(这可能涉及在第 2 阶段可能无法实现的其他外部流程)
因此,任何可以帮助我跟踪爬虫何时开始、它们是如何进行的以及它们保存原始数据的位置的系统都很棒。我曾想过使用 MongoDB 编写自己的东西,但我确信有人比我做得更好。