0

首先想说的是我对python和一些web库如mechanize、beautiful soup、urllib2有经验。

这个想法是创建一个应用程序,该应用程序将从网页中获取信息,我目前在 webbrowser 中查看。而不是存储它。

例如:我手动去网站,创建一个用户。比运行我的应用程序,它会从我目前正在查看的网页中获取一些详细信息。如用户名、名字、姓氏等。

问题:我不知道如何让程序在我的网络浏览器上运行。我不能简单地做一个 scipt 来登录这个网页,然后用 Beautiful Soup 做剩下的事情,因为它对网络爬虫和网络机器人有很好的保护。

需要一些地方开始。所以主要问题是是否有可能获取当前在我的网络浏览器上的信息?如果是,希望听到一些关于如何让我的程序查看浏览器的建议?

如果您不明白我在问什么,或者您有一些建议,一些我可以使用的库,请随意填写。

4

1 回答 1

0

最简单的做法可能是将当前页面的 HTML 内容保存到文件中(使用文件 -> 将页面另存为或浏览器中的任何内容),然后在该文件上运行 Beautiful Soup / lxml.html / 任何内容。

您可能还可以让Selenium做您想做的事,尽管我从未使用过它并且不确定。

于 2012-10-17T22:48:48.273 回答