-4

有些网页在加载时不会显示全部内容,而只显示部分内容,以节省加载时间。

如果用户向下拖动滚动条,将显示越来越多的内容。

我的问题是 - 如何通过 python 获取网页的完整内容?

一开始我尝试

content = urlopen('http://www.kickstarter.com/projects/597507018/pebble-e-paper-watch-for-iphone-and-android/backers')

但它只获取页面的第一部分。

谢谢。

4

1 回答 1

0

正如 Martijn Pieters 所指出的,有很多方法可以通过各种网站来实现。因此,您可能希望使用无头浏览器。这是讨论此问题的问题的链接:

适用于 Python 的无头浏览器(需要 Javascript 支持!)

在这个问题中,Richard 给出了您可能会发现有用的以下答案:

我通过 pyqt / pyside 在 Python 中使用 webkit 作为无头浏览器: http ://www.riverbankcomputing.co.uk/software/pyqt/download http://developer.qt.nokia.com/wiki/Category:LanguageBindings:: PySide::下载

我特别喜欢 webkit,因为它设置简单。对于 Ubuntu,您只需使用:

sudo apt-get install python-qt4

这是一个示例脚本: http ://webscraping.com/blog/Scraping-JavaScript-webpages-with-webkit/

我希望这有帮助。

PS:对于以后的问题,尽量不要对你的问题更具体一点,这样你就不会被别人否决。


编辑:2013-04-13 19:00 猫

在查看了您更新的问题以及您正在调查的特定 URL 后,我在 Chrome 中打开它并使用开发人员工具检查了网络请求,我看到当您到达页面底部时会发生什么,它调用了一个 URL格式如下:

http://www.kickstarter.com/projects/597507018/pebble-e-paper-watch-for-iphone-and-android/backers?cursor=675683697

您只需要使用之前的 HTML 来确定要使用的正确光标值。

于 2013-04-13T15:07:26.807 回答