javascript - Lots of parallel http requests in node.js

Question

I've created a node.js script, that scans network for available HTTP pages, so there is a lot of connections i want to run in parallel, but it seems that some of the requests wait for previous to complete.

Following is the code fragment:

    var reply = { };
    reply.started = new Date().getTime();
    var req = http.request(options, function(res) {
        reply.status = res.statusCode;
        reply.rawHeaders = res.headers;
        reply.headers = JSON.stringify(res.headers);
        reply.body = '';
        res.setEncoding('utf8');
        res.on('data', function (chunk) {
            reply.body += chunk;
        });
        res.on('end', function () {
            reply.finished = new Date().getTime();
            reply.time = reply.finished - reply.started;
            callback(reply);
        });
    });
    req.on('error', function(e) {
        if(e.message == 'socket hang up') {
            return;
        }
        errCallback(e.message);
    });
    req.end();

This code performs only 10-20 requests per second, but i need 500-1k requests performance. Every queued request is made to a different HTTP server.

I've tried to do something like that, but it didn't help:

    http.globalAgent.maxSockets = 500;

score 9 · Accepted Answer

您的代码肯定有其他问题。Node 每秒可以轻松处理 1k+ 请求。

我使用以下简单代码进行了测试：

var http = require('http');

var results = [];
var j=0;

// Make 1000 parallel requests:
for (i=0;i<1000;i++) {
    http.request({
        host:'127.0.0.1',
        path:'/'
    },function(res){
        results.push(res.statusCode);
        j++;

        if (j==i) { // last request
            console.log(JSON.stringify(results));
        }
    }).end();
}

为了纯粹测试哪个节点能够而不是我的家庭宽带连接，代码请求来自本地 Nginx 服务器。我还避免使用 console.log，直到所有请求都返回，因为它是作为同步函数实现的（以避免在程序崩溃时丢失调试消息）。

使用我运行代码time得到以下结果：

real    0m1.093s
user    0m0.595s
sys     0m0.154s

1000 个请求需要 1.093 秒，这使得它非常接近每秒 1k 个请求。

如果您尝试发出大量请求（例如 10000 或更多），上面的简单代码将产生操作系统错误，因为节点会很高兴地尝试在 for 循环中打开所有这些套接字（请记住：请求直到 for 循环才会开始结束，它们只是被创建）。您提到您的解决方案也遇到了同样的错误。为避免这种情况，您应该限制您发出的并行请求的数量。

限制并行请求数量的最简单方法是使用async.js库中的Limit函数之一：

var http = require('http');
var async = require('async');

var requests = [];

// Build a large list of requests:
for (i=0;i<10000;i++) {
    requests.push(function(callback){
        http.request({
            host:'127.0.0.1',
            path:'/'
        },function(res){
            callback(null,res.statusCode);
        }).end()
    });
}

// Make the requests, 100 at a time
async.parallelLimit(requests, 100,function(err, results){
    console.log(JSON.stringify(results));
});

在我的机器上运行它，time我得到：

real    0m8.882s
user    0m4.036s
sys     0m1.569s

所以这是在大约 9 秒或大约 1.1k/s 内发出 10k 个请求。

查看async.js提供的函数。

score 4 · Accepted Answer

我为我找到了解决方案，它不是很好，但可以：

childProcess = require('child_process')

我正在使用卷曲：

childProcess.exec('curl --max-time 20 --connect-timeout 10 -iSs "' + options.url + '"', function (error, stdout, stderr) { }

这使我可以同时运行 800-1000 个 curl 进程。当然，这个解决方案有它的周末，比如需要大量打开的文件描述符，但是可以工作。

我试过 node-curl 绑定，但这也很慢。

javascript - Lots of parallel http requests in node.js

2 回答 2

Related

Reference