3

我正在尝试使用 PyQt 加载网页的 html,然后可以对其进行操作并将其反馈到网页以进行网页抓取。我基本上是在尝试登录一个带有 Javascript 的页面,搜索要下载的文档(通过选择正确名称旁边的复选框),然后单击一个弹出另一个页面的下载按钮。

有谁知道我会使用的功能?有没有办法在不进入课堂的情况下讨论这个问题?(我对类的理解还不够好,我正在努力学习,我还是个初学者)。

对不起,如果我没有很好地解释这一点。我正在尝试使用 PyQt 或 PySide 来做到这一点。

4

2 回答 2

2

我使用 pyqt/pyside 加载页面,等待 JavaScript 执行,然后解析生成的 HTML 以获取感兴趣的内容。

这是一个示例脚本:
http ://webscraping.com/blog/Scraping-JavaScript-webpages-with-webkit/

于 2011-05-17T22:24:09.090 回答
0

我认为您对事情发生的位置感到困惑,因此我不清楚您要尝试做什么,但让我们猜测一下。

我认为您希望自动使用网站,您必须在其中调用选择页面,勾选框,单击按钮并处理生成的下载。

如果您只想执行几次以测试站点,请查看 watir 和 Selenium。

如果您真的想用 Python 编写代码,那么您必须充分了解使用复选框发送的页面,以便您可以找到并提取表单,从该表单中的字段创建一个 POST,然后将 POST 发送到下载。如果页面包含 javascript,这可能会添加/删除/禁止您创建有效的帖子。

然后,您将不得不捕获并保存生成的下载。

每次站点更改其 html 页面时,您的代码都会发生恐慌性更改。

我一点也不羡慕你的这份工作。

于 2011-05-17T20:08:49.110 回答