-1

我做了很多网络爬虫,对于每个项目,我发现自己重写了一种框架/后端,包括将原始页面/文件保存到命名空间目录中,有时甚至是一个数据库来跟踪日期、错误消息等。

我想知道是否已经为此类任务构建了任何此类框架。我并不是指实际的抓取任务本身,它是使用诸如 Nokogiri/Mechanize/等 HTML 解析器的组合……而是用于管理抓取器及其收集的数据。对于我所做的一些任务,数据收集有几个阶段。

例如:

  1. 遍历站点,下载原始页面
  2. 解析存储的原始页面,提取数据
  3. 清理数据(这可能涉及在第 2 阶段可能无法实现的其他外部流程)

因此,任何可以帮助我跟踪爬虫何时开始、它们是如何进行的以及它们保存原始数据的位置的系统都很棒。我曾想过使用 MongoDB 编写自己的东西,但我确信有人比我做得更好。

4

1 回答 1

0

我知道 irobotsoft scraper 解决了所有这些问题。它有很多功能可以清理 html 页面和存储数据,内部排序和数据库操作内置在一个简单的 UI 中。

此外,它是免费的。

于 2012-08-21T20:09:00.100 回答