1

任何人都可以帮我正确选择此表单吗?

试图抓取谷歌,我收到错误:mechanize._mechanize.FormNotFoundError: no form matching name 'q'

不寻常,因为我看过其他几个使用它的教程,并且: ps 我不打算通过请求来 SLAM google,只是希望使用自动选择器来不时查找学术引文 pdf。

<f GET http://www.google.com.tw/search application/x-www-form-urlencoded
  <HiddenControl(ie=Big5) (readonly)>
  <HiddenControl(hl=zh-TW) (readonly)>
  <HiddenControl(source=hp) (readonly)>
  <TextControl(q=)>
  <SubmitControl(btnG=Google ?j?M) (readonly)>
  <SubmitControl(btnI=?n???) (readonly)>
  <HiddenControl(gbv=1) (readonly)>>
>>> quit()




import os, subprocess
import re
import mechanize
from bs4 import BeautifulSoup
#prepare mechanize
br = mechanize.Browser()
br.set_handle_robots(False)
br.set_handle_equiv(False)
br.addheaders = [('User-agent', 'Mozilla/5.0')] 
br.open('http://www.google.com/')
br.select_form('q')
citation = ' www.stackoverflow.com '.strip() 
#citation = GOOGLE_BASE + Citation
print citation
br.open('http://www.google.com/')
br.select_form('q')
br.form['q'] = citation
br.submit()
data = br.read()
soup = BeautifulSoup(data)
print soup
4

1 回答 1

8

您正在尝试选择一个名为 的表单q,该表单不存在。似乎该表单被命名f了。(但是,我无法在我的浏览器中验证这一点——即使禁用了 Javascript,我也只看到了一个不同的名称。)

一个简单的谷歌搜索可以这样完成:

import os, subprocess
import re
import mechanize
from bs4 import BeautifulSoup

#prepare mechanize
br = mechanize.Browser()
br.set_handle_robots(False)
br.set_handle_equiv(False)
br.addheaders = [('User-agent', 'Mozilla/5.0')] 
br.open('http://www.google.com/')

# do the query
br.select_form(name='f')   # Note: select the form named 'f' here
br.form['q'] = 'here goes your query' # query
data = br.submit()

# parse and output
soup = BeautifulSoup(data.read())
print soup

这应该给你的想法。

更新:如何找到正确的表单“选择器”

要打印可用表单的名称,您可以执行以下操作:

for form in br.forms():
    print form.name

当您使用交互式控制台时,这会派上用场。

您不必使用表格的名称,但您可以提供其他提示以选择正确的表格。例如,在某些页面上,表单根本没有名称。然后您仍然可以根据表格的编号进行选择,例如br.select_form(nr=1)页面上的第二个表格。详情请参阅help(br.select_form)。此外,list(br.forms())还会为您提供可以进一步检查的所有表格的列表。

另一种选择是在您常用的浏览器中手动检查页面。

于 2013-04-15T17:08:40.027 回答