2

我正在用node.io构建一个刮板

我要抓取的页面每分钟都有新内容。我想每分钟一次又一次地运行我的工作。(好吧,我可以用 bash 脚本来做到这一点,但我想留在 javascript 中)这是一项基本工作:

var nodeio = require('node.io'), options = {timeout: 10};

exports.job = new nodeio.Job(options, {
    input: ['hello', 'foobar', 'weather'],
    run: function (keyword) {
        this.getHtml('http://www.google.com/search?q=' + encodeURIComponent(keyword), function (err, $) {
            var results = $('#resultStats').text.toLowerCase();
            this.emit(keyword + ' has ' + results);
        });
    }
});

我怎么能那样做?我是 node.js 的初学者,我在工作中尝试了 setInterval (:没有成功。

4

1 回答 1

3

试试这个(使用“node <myfile.js>”而不是“node.io <myfile.js>”运行):

var nodeio = require('node.io'), options = {timeout: 10};
var job = {
    input: ['hello', 'foobar', 'weather'],
    run: function (keyword) {
        this.getHtml('http://www.google.com/search?q=' + encodeURIComponent(keyword), function (err, $) {
        var results = 'test';//$('#resultStats').text.toLowerCase();
        this.emit(keyword + ' has ' + results);
      });
    }
};

setInterval(function(){
    nodeio.start(new nodeio.Job(options, job), options, function(){});
}, 5000);

您遇到的问题是 node.io 中的以下代码块,当您在运行作业时不提供回调时退出节点:

//Default behaviour is to exit once the job is complete
callback = callback || function (err) {
    if (err) {
        utils.status.error(err);
    }
    process.exit();
};
于 2012-04-25T20:12:42.993 回答