1

我正在编写一个网页抓取程序来从网站上获取我的成绩。我使用 Mechanize 登录页面并导航到我正在抓取的区域。不幸的是,该页面使用 Javascript 来加密页面(可能是为了阻止我抓取)。我找到了解密脚本并移植到 Python。它可以工作,我用它从页面中提取加密字符串,当我转换它时,它变成了 HTML 中的表格。

那么,说到我的意思,有没有办法将 HTML 注入页面并使用 mechanize 使用表格上的链接来获取我的成绩?

谢谢您的帮助!

编辑:我也有美味的汤,如果有帮助的话。

4

1 回答 1

0

我最终只使用了这个:

response = br.open("www.linknotonpagethatiwanttogoto.com")
page = response.read()

我发现您将链接的 .open() 存储为响应,而不是使用 .follow_link()。此外,浏览器使用相同的 cookie,因此会话 cookie 被保留。因此,在解析了 html 之后,我将链接弹出到 .open() 并获得了新页面。

于 2013-03-20T13:21:04.440 回答