5

我有一个脚本(如下),它通过 3 个步骤来抓取网站。一次最多设置为 1 页时效果很好。但是,当我一次将其增加到 2 时,事情开始变得不稳定。onFinished 比我预期的更早触发,并且页面尚未完全加载。因此,我的脚本的其余部分中断了。知道为什么会发生这种情况吗?我应该补充一点,我正在使用最新版本(1.5)。

MAX_PAGES = 1
### 
changing MAX_PAGES to >1 causes some pages onFinished event to fire before
the page is fully rendered.  this is evident by the fact that there are >1 images
for some pages.  i havent been able to reproduce using microsoft.com, but on some
pages i was working on the first onLoadFinished seemed to be called before the page
was actually fully loaded based on the look of the rendered images
###

newPage = (id) ->
context = {}
context.id = id
context.step = 0
context.page = require('webpage').create()
context.page.onLoadStarted = ->
    context.step++
context.page.onLoadFinished = (status) ->
    console.log status
    if status is 'success'
        context.page.render("#{context.id}_#{context.step}.png")
    else
        context.page.release()
        context.page.open('http://www.microsoft.com')
        console.log 'started loading'

newPage id for id in [1..MAX_PAGES]
4

2 回答 2

4

我认为这个问题与 PhantomJS 中的每个网页都使用相同的 QNetworkAccessManager 的事实有关,因此,当每个网页对象完成加载时, finished()信号就会触发。为了解决这个问题,可能需要对 PhantomJS 的代码进行修改。在尝试在 PhantomJS 中并行加载多个页面时,我已经注意到了这一点。我正在开发的一个应用程序使用 QtWebkit 并同时加载多个页面,因此我必须确保每个网页都有自己的 QNetworkAccessManager,以便 finished() 信号不会相互干扰。

于 2012-05-02T19:46:58.477 回答
3

要爬取多个页面,请参阅与库捆绑的示例 follow.js。https://github.com/ariya/phantomjs/blob/master/examples/follow.js

在加载下一页之前,您需要使用递归来等待当前页面加载。

于 2012-06-30T02:07:21.583 回答