我必须在我们公司的 Intranet 上抓取一个非常非常简单的页面,以便自动化我们的一个内部流程(返回函数的输出是否成功)。
我找到了以下示例:
import sys
from PyQt4.QtGui import *
from PyQt4.QtCore import *
from PyQt4.QtWebKit import *
class Render(QWebPage):
def __init__(self, url):
self.app = QApplication(sys.argv)
QWebPage.__init__(self)
self.loadFinished.connect(self._loadFinished)
self.mainFrame().load(QUrl(url))
self.app.exec_()
def _loadFinished(self, result):
self.frame = self.mainFrame()
self.app.quit()
url = 'http://sitescraper.net'
r = Render(url)
html = r.frame.toHtml()
来自http://blog.sitescraper.net/2010/06/scraping-javascript-webpages-in-python.html,它几乎是完美的。我只需要能够提供身份验证来查看页面。
我一直在查看 PyQt4 的文档,我承认其中很多内容都超出了我的想象。如果有人可以提供帮助,我将不胜感激。
编辑: 不幸的是 gruszczy 的方法对我不起作用。当我通过 urllib2 做了类似的事情时,我使用了下面的代码并且它工作了......
username = 'user'
password = 'pass'
req = urllib2.Request(url)
base64string = base64.encodestring('%s:%s' % (username, password))[:-1]
authheader = "Basic %s" % base64string
req.add_header("Authorization", authheader)
handle = urllib2.urlopen(req)