0

我使用 nokogiri 来抓取一个 html 页面,我不擅长抓取,就像我不擅长创建任务一样。我找到了一些教程,我认为我可以根据自己的需要对其进行修改,但我无法让它发挥作用。

这是我用来废弃 html 的 ruby​​ 代码,当我在 ruby​​ 控制台中运行它时效果很好,但现在我需要使用所有这些字段创建一个新记录:

require 'rubygems'
require 'mechanize'
#require 'pp'

a = Mechanize.new { |agent|
  agent.user_agent_alias = 'Mac Safari'
}

a.get('http://ted.europa.eu/udl?uri=TED:NOTICE:143331-2012:DATA:EN:HTML&tabId=3') do |page|
  title             = page.search('table').search('tr')[0].search('td').map{ |n| n.text }
  doc_nr            = page.search('table').search('tr')[1].search('td').map{ |n| n.text }
  pub_date          = page.search('table').search('tr')[2].search('td').map{ |n| n.text }

  puts "#{title} - #{doc_nr} - #{pub_date}"
end

很高兴得到一个完整的答案,但是..一些好的教程和维基链接也可以。非常感谢您的宝贵时间。

4

1 回答 1

1

对于活动记录:

Record.new(:title => title, :doc_nr => doc_nr, :pub_date => pub_date).save
于 2012-05-08T01:05:08.183 回答