ruby - 使用 rake 任务和来自抓取 html 的 ruby 代码构建记录

Question

我使用 nokogiri 来抓取一个 html 页面，我不擅长抓取，就像我不擅长创建任务一样。我找到了一些教程，我认为我可以根据自己的需要对其进行修改，但我无法让它发挥作用。

这是我用来废弃 html 的 ruby 代码，当我在 ruby 控制台中运行它时效果很好，但现在我需要使用所有这些字段创建一个新记录：

require 'rubygems'
require 'mechanize'
#require 'pp'

a = Mechanize.new { |agent|
  agent.user_agent_alias = 'Mac Safari'
}

a.get('http://ted.europa.eu/udl?uri=TED:NOTICE:143331-2012:DATA:EN:HTML&tabId=3') do |page|
  title             = page.search('table').search('tr')[0].search('td').map{ |n| n.text }
  doc_nr            = page.search('table').search('tr')[1].search('td').map{ |n| n.text }
  pub_date          = page.search('table').search('tr')[2].search('td').map{ |n| n.text }

  puts "#{title} - #{doc_nr} - #{pub_date}"
end

很高兴得到一个完整的答案，但是..一些好的教程和维基链接也可以。非常感谢您的宝贵时间。

score 1 · Accepted Answer

1

对于活动记录：

Record.new(:title => title, :doc_nr => doc_nr, :pub_date => pub_date).save

于 2012-05-08T01:05:08.183 回答

ruby - 使用 rake 任务和来自抓取 html 的 ruby​​ 代码构建记录

1 回答 1

Related

Reference

ruby - 使用 rake 任务和来自抓取 html 的 ruby 代码构建记录