我正在尝试抓取一个依赖 JavaScript 的站点。这是一个非常基本的网站,有一个简单的整体列表(实际上是城市名称),我不想复制并粘贴到 Excel 中。该列表由 javascript 控制,所以我认为我需要使用 Qt4 之类的东西来模拟浏览器,并且我一直在尝试 PySide。
我从一些非常基本的代码开始(我从这里改编):
#!/usr/bin/env python
import sys
import signal
import argparse
from PySide.QtCore import *
from PySide.QtGui import *
from PySide.QtWebKit import QWebPage
class Crawler( QWebPage ):
def __init__(self, url, file):
QWebPage.__init__( self )
self._url = url
self._file = file
def crawl( self ):
signal.signal( signal.SIGINT, signal.SIG_DFL )
self.connect( self, SIGNAL( 'loadFinished(bool)' ), self._finished_loading )
self.mainFrame().load( QUrl( self._url ) )
def _finished_loading( self, result ):
file = open( self._file, 'w' )
file.write( self.mainFrame().toHtml() )
file.close()
sys.exit( 0 )
def main():
app = QApplication( sys.argv )
args = get_args()
crawler = Crawler( args.url, args.file )
crawler.crawl()
sys.exit( app.exec_() )
def get_args():
"""
Command argument parser
Returns structure:
args.url
args.file
"""
parser = argparse.ArgumentParser(description='Basic scraper')
parser.add_argument( '-u', '--url', dest='url', help='URL to fetch data from', default='http://www.google.com')
parser.add_argument('-f','--file', dest='file', help='Local file path to save data to', default='data.txt')
args = parser.parse_args()
return args
if __name__ == '__main__':
main()
问题是,我不太了解 PySide/Qt4。我收到此错误:
Error calling slot "_finished_loading"
我什至不确定这意味着什么。这是我可以解决的事情,而无需参与找出 Qt4 和 PySide 的漫长而艰巨的过程吗?这是一个简单的修复吗?
感谢所有输入。