database-design - 是否有处理数据归档和存储的数据抓取框架？

Question

我做了很多网络爬虫，对于每个项目，我发现自己重写了一种框架/后端，包括将原始页面/文件保存到命名空间目录中，有时甚至是一个数据库来跟踪日期、错误消息等。

我想知道是否已经为此类任务构建了任何此类框架。我并不是指实际的抓取任务本身，它是使用诸如 Nokogiri/Mechanize/等 HTML 解析器的组合……而是用于管理抓取器及其收集的数据。对于我所做的一些任务，数据收集有几个阶段。

例如：

因此，任何可以帮助我跟踪爬虫何时开始、它们是如何进行的以及它们保存原始数据的位置的系统都很棒。我曾想过使用 MongoDB 编写自己的东西，但我确信有人比我做得更好。

score 0 · Accepted Answer

我知道 irobotsoft scraper 解决了所有这些问题。它有很多功能可以清理 html 页面和存储数据，内部排序和数据库操作内置在一个简单的 UI 中。

此外，它是免费的。

1 回答 1