0

我是 node js 的初学者,我正在尝试编写一个网络抓取脚本。如果我每分钟提出的请求少于 15 个,我会从网站管理员那里获得许可来抓取他们的产品。当我开始时,它曾经一次请求所有 URL,但经过一些工具后,我能够遍历数组中的每个项目,但是当数组中没有更多项目时脚本不会停止?我对我的结果并不满意,并且觉得有更好的方法来做到这一点。

    var express = require('express');
    var fs = require('fs');
    var request = require('request');
    var cheerio = require('cheerio');
    var app     = express();
    var async = require('async');

app.get('/scrape', function(req, res){
productListing = ['ohio-precious-metals-1-ounce-silver-bar','morgan-1-ounce-silver-bar']
var i = 0;
async.eachLimit(productListing, 1, function (product, callback) {
    var getProducts = function () {
        var url = 'http://cbmint.com/' + productListing[i];
        request(url, function(error, response, html) {
            if(!error){
                var $ = cheerio.load(html);

                var title;
                var json = { title : ""};

                $('.product-name').filter(function(){
                    var data = $(this);
                    title = data.children().children().first().text();

                    json.title = title;
                })
            }
            var theTime = new Date().getTime();
            console.log(i);
            console.log(json.title);
            console.log(theTime);
            i++;
        });
    }
    setInterval(getProducts,10000); 
})
res.send('Check your console!')
})

app.listen('8081')
console.log('Magic happens on port 8081');
exports = module.exports = app; 
4

1 回答 1

0

您没有callback在迭代器函数内部调用。查看eachLimit的文档。

于 2014-08-20T22:59:35.090 回答