0

我们开发了一个基于 Web 的应用程序,具有用户登录等功能,我们开发了一个 python 应用程序,它必须在此页面上获取一些数据。

有什么方法可以沟通 python 和系统默认浏览器?我们的主要目标是用系统浏览器打开一个网页,并从中获取 HTML 源代码?我们尝试使用python webbrowser,成功打开网页,但无法获取源代码,并尝试使用urllib2,在这种情况下,我认为我们必须使用系统默认浏览器的cookie等,我不想这样做,因为安全性。

4

3 回答 3

1

https://pypi.python.org/pypi/selenium

你可以尝试使用 Selenium,他是为了测试而做的,但没有什么能阻止你将它用于其他目的

于 2013-03-05T14:49:41.460 回答
0

如果您的网站可以在没有 Javascript 的情况下导航,那么您可以尝试Mechanizezope.testbrowser。这些工具提供了比 更高级别的 API urllib2,让您可以执行诸如跟踪页面上的链接和填写 HTML 表单之类的操作。

例如,这有助于导航使用基于 cookie 的身份验证和 HTML 表单进行登录的站点。

于 2013-03-05T14:52:56.117 回答
0

看看这个nltk模块——他们有一些用于查看网页和获取文本的实用程序。还有BeautifulSoup, 更详细一点。我目前正在使用这两种方法来抓取网页以获取学习算法——它们是非常广泛使用的模块,所以这意味着你可以在这里找到很多提示 :)

于 2013-03-05T15:23:14.410 回答