我正在从论坛中提取数据。我的脚本基于工作正常。现在我需要从单个帖子中提取日期和时间(2009 年 12 月 21 日,20:39)。我无法让它工作。我使用 FireXPath 来确定 xpath。
示例代码:
require 'rubygems'
require 'mechanize'
post_agent = WWW::Mechanize.new
post_page = post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')
puts post_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div[2]/text()').to_s.strip
puts post_page.parser.at_xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div[2]/text()').to_s.strip
puts post_page.parser.xpath('//[@id="post1960370"]/tbody/tr[1]/td/div[2]/text()')
我所有的尝试都以空字符串或错误结束。
我找不到任何关于在 Mechanize 中使用 Nokogiri 的文档。机械化文档在页面底部说:
使用 Mechanize 导航到需要抓取的页面后,然后使用 Nokogiri 方法对其进行抓取。
但是什么方法呢?我在哪里可以通过示例和解释的语法阅读它们?我也没有在Nokogiri 的网站上找到任何东西。