我正在做一个抓取项目,试图从这个网站上抓取图书馆信息:http: //www.americanlibrarydirectory.com。
星期五(在经历了很多挫折之后)我写了下面的代码,它终于奏效了。
def scrape_alpha():
cj = cookielib.CookieJar()
br = mechanize.Browser()
br.set_cookiejar(cj)
br.open("http://www.americanlibrarydirectory.com/Login.asp")
br.select_form(name="FORM1")
br.form['USERNAME'] = 'myemailaddress'
br.form['PASSWORD'] = 'mypasscode'
br.submit()
print(br.response().read())
alpha_url = "http://www.americanlibrarydirectory.com/browse.asp?Query=A"
r = br.open(alpha_url).read()
soup = BeautifulSoup(r)
现在我今天回到项目,尽管代码上周工作,但它今天不工作,我不知道如何开始找出问题所在 - 它没有给我任何错误消息,它根本没有登录,我仍然在登录页面上。
如果我尝试手动登录(而不是代码),那么我不认为问题是我的电子邮件/密码不正确或我的帐户已过期。有人对我应该尝试做什么有建议吗?