我正在尝试从一堆不同的网站上抓取音乐会数据。我编写了几个脚本,每个脚本都从特定网站抓取数据并将其组织成具有可预测结构的散列。这些脚本中的每一个都具有scrape
完成此任务的功能。我在一个目录中有所有这些爬虫脚本。然后我想编写一个主脚本,对于目录中的每个脚本,调用该脚本scrape
并将数据添加到数据库中。
我计划让这个主脚本成为 Resque 工作人员,以便该站点每天在后台抓取每个站点。
如何在主脚本中完成此操作?现在我像这样浏览目录:
Dir.glob(/app/workers/scraped_venues/*.rb) do |venue_scraper|
# call that script's `scrape` function
# use data from that `scrape` call
end