2

我想从使用 Ajax 调用加载 DOM 元素的页面中抓取数据。

我曾尝试使用基于 PyQt4 的旧解决方案线抓取,它在 DOM 完全加载后加载它,但问题是我需要执行 POST 请求,并且它仅可用于 GET。

新的 Python 模块ghost.py存在超时问题:当它获取大型 DOM 树时,会引发超时异常。

如果有人知道任何可以帮助我在完全加载 DOM 后执行 POST 请求并获取数据的特定方式或工具,那将对我有很大帮助。

4

2 回答 2

2

您可以使用Selenium自动化浏览器和访问 dom。Selenium 具有 python 驱动程序,因此您可以在 python 中编写代码以导航到页面。单击按钮并等待 ajax 调用完成,然后再开始报废。

于 2012-04-28T05:30:43.597 回答
0

为了模拟 Javascript 和自动化浏览器,我推荐使用Spynner。您可以在有或没有 Xserver 的情况下运行它,并且语法非常易于使用。您也可以加载 jquery。

于 2014-06-12T12:15:12.457 回答