0

我正在尝试抓取一个依赖 JavaScript 的站点。这是一个非常基本的网站,有一个简单的整体列表(实际上是城市名称),我不想复制并粘贴到 Excel 中。该列表由 javascript 控制,所以我认为我需要使用 Qt4 之类的东西来模拟浏览器,并且我一直在尝试 PySide。

我从一些非常基本的代码开始(我从这里改编):

#!/usr/bin/env python

import sys
import signal 
import argparse

from PySide.QtCore import *
from PySide.QtGui import *
from PySide.QtWebKit import QWebPage


class Crawler( QWebPage ):
def __init__(self, url, file):
    QWebPage.__init__( self )
    self._url = url
    self._file = file

def crawl( self ):
    signal.signal( signal.SIGINT, signal.SIG_DFL )
    self.connect( self, SIGNAL( 'loadFinished(bool)' ), self._finished_loading )
    self.mainFrame().load( QUrl( self._url ) )

def _finished_loading( self, result ):
    file = open( self._file, 'w' )
    file.write( self.mainFrame().toHtml() )
    file.close()
    sys.exit( 0 )

def main():
    app = QApplication( sys.argv )
    args = get_args()
    crawler = Crawler( args.url, args.file )
    crawler.crawl()
    sys.exit( app.exec_() )

def get_args():
"""
Command argument parser

Returns structure:
    args.url
    args.file
"""

parser = argparse.ArgumentParser(description='Basic scraper')
parser.add_argument( '-u', '--url', dest='url', help='URL to fetch data from', default='http://www.google.com')
parser.add_argument('-f','--file', dest='file', help='Local file path to save data to', default='data.txt')

args = parser.parse_args()
return args


if __name__ == '__main__':
    main()

问题是,我不太了解 PySide/Qt4。我收到此错误:

Error calling slot "_finished_loading" 

我什至不确定这意味着什么。这是我可以解决的事情,而无需参与找出 Qt4 和 PySide 的漫长而艰巨的过程吗?这是一个简单的修复吗?

感谢所有输入。

4

2 回答 2

1

Try replacing sys.exit( 0 ) in _finished_loading with QApplication.instance().exit().

于 2011-09-07T09:04:48.657 回答
0

您没有将 _finished_loading 声明为插槽。为此,您需要像这样使用 @Slot() 装饰器

@Slot(str)
def _finished_loading(self, result):
    print(result)

@Slot(int, int)
def add(self, a, b):
    print(a+b)

等等。装饰器的参数是预期函数参数的 Python 数据类型的逗号分隔列表。

于 2014-12-22T10:19:37.397 回答