0

我正在尝试使用mechanize对我大学的课程表数据库进行简单搜索。以下代码返回 nil,但它可以登录 facebook 并搜索 google(使用 diff url/params)。我究竟做错了什么?

我在这里关注最新的(伟大的)railscast。机械化文档很有用,但我仍然感到困惑。提前感谢您的建议!

ruby script/console
require 'mechanize'
agent = WWW::Mechanize.new
agent.get("https://www.owens.edu/cgi-bin/class.pl/")
agent.page.forms
form = agent.page.forms.last
form.occ_subject = "chm"
form.submit.search
=> []
4

2 回答 2

0

form.submit.search即删除搜索form.submit我猜你正在附加搜索以提交认为它与提交按钮的值有关,即搜索。

你正在做的代码是成功提交表单。但是,您正在使用 nil 参数调用结果页面对象的搜索方法。search 方法需要一个选择器,例如'body div#nav_bar ul.links li'作为它的参数,以返回与该选择器匹配的元素数组。当然,没有元素会匹配 nil 选择器,因此是空数组。

根据您的回复进行编辑:

你的代码:

ruby script/console
require 'mechanize'
agent = WWW::Mechanize.new
agent.get("https://www.owens.edu/cgi-bin/class.pl/")
agent.page.forms
form = agent.page.forms.last
form.occ_subject = "chm"
form.submit.search
=> []

我尝试并开始工作:

红宝石脚本/控制台

require 'mechanize'
agent = WWW::Mechanize.new
agent.get("https://www.owens.edu/cgi-bin/class.pl")
agent.page.forms
form = agent.page.forms.last
form.occ_subject = "chm"
form.submit # <- No search method.
=> Insanely long array of HTML elements

相同的代码也不适用于 Google:

require 'mechanize'
require 'nokogiri'
agent = WWW::Mechanize.new
agent.get("http://www.google.com")
form = agent.page.forms.last
form.q = "stackoverflow"
a = form.submit.search
b = form.submit
puts a
=> [] # <--- EMPTY!

puts b
#<WWW::Mechanize::Page
 {url
  #<URI::HTTP:0x1020ea878 URL:http://www.google.co.uk/search?hl=en&source=hp&ie=ISO-8859-1&q=stackoverflow&meta=>}
 {meta}
 {title "stackoverflow - Google Search"}
 {iframes}
 {frames}
 {links
  #<WWW::Mechanize::Page::Link
   "Images"
   "http://images.google.co.uk/images?hl=en&source=hp&q=stackoverflow&um=1&ie=UTF-8&sa=N&tab=wi">
  #<WWW::Mechanize::Page::Link
   "Videos"
   …

页面对象的搜索方法的行为类似于 Nokogiri 的搜索方法,因为它接受一系列 CSS 选择器和/或 XPath 查询并返回匹配元素的可枚举对象。例如

page.search('h3.r a.l', '//h3/a[@class="l"]') 
于 2009-12-08T05:29:54.560 回答
0

通过 WWW::Mechanize 查询页面返回空结果。

我不确定 WWW::Mechanize 是否可以处理 POSTING 到这个安全页面。

“无法将 nil 转换为字符串”意味着它无法以文本形式向您显示什么都不是。它不能从无到有转化。

这也可能是表单和脚本延迟的问题。

尝试使用 curl 进行调试、POST 等curl -d "occ_subject=chm" https://www.owens.edu/cgi-bin/class.pl,当我尝试它返回一个页面时。

我认为这是安全页面和 cgi 脚本结合的问题。

于 2009-12-08T05:04:48.820 回答