我使用 nokogiri 来抓取一个 html 页面,我不擅长抓取,就像我不擅长创建任务一样。我找到了一些教程,我认为我可以根据自己的需要对其进行修改,但我无法让它发挥作用。
这是我用来废弃 html 的 ruby 代码,当我在 ruby 控制台中运行它时效果很好,但现在我需要使用所有这些字段创建一个新记录:
require 'rubygems'
require 'mechanize'
#require 'pp'
a = Mechanize.new { |agent|
agent.user_agent_alias = 'Mac Safari'
}
a.get('http://ted.europa.eu/udl?uri=TED:NOTICE:143331-2012:DATA:EN:HTML&tabId=3') do |page|
title = page.search('table').search('tr')[0].search('td').map{ |n| n.text }
doc_nr = page.search('table').search('tr')[1].search('td').map{ |n| n.text }
pub_date = page.search('table').search('tr')[2].search('td').map{ |n| n.text }
puts "#{title} - #{doc_nr} - #{pub_date}"
end
很高兴得到一个完整的答案,但是..一些好的教程和维基链接也可以。非常感谢您的宝贵时间。