0

我正在尝试从一堆不同的网站上抓取音乐会数据。我编写了几个脚本,每个脚本都从特定网站抓取数据并将其组织成具有可预测结构的散列。这些脚本中的每一个都具有scrape完成此任务的功能。我在一个目录中有所有这些爬虫脚本。然后我想编写一个主脚本,对于目录中的每个脚本,调用该脚本scrape并将数据添加到数据库中。

我计划让这个主脚本成为 Resque 工作人员,以便该站点每天在后台抓取每个站点。

如何在主脚本中完成此操作?现在我像这样浏览目录:

Dir.glob(/app/workers/scraped_venues/*.rb) do |venue_scraper|
  # call that script's `scrape` function
  # use data from that `scrape` call
end
4

1 回答 1

0

我会做一个 rake 任务来进行抓取:

耙子教程:http: //jasonseifer.com/2010/04/06/rake-tutorial

并使用when gem 每天运行刮擦。应该很容易从文档中找出:

https://github.com/javan/无论何时

如何在 Rails 中在后台运行东西:Ruby on Rails:如何在后台运行东西?

于 2013-01-03T11:31:30.750 回答