4

我在我们的网络应用程序上遇到了一个非常奇怪且看似随机的问题,我似乎无法成功调试。它可以正常运行 10 分钟到 6 小时,然后突然之间无法向服务器发出或来自服务器的远程请求,它们只是挂起(这包括常规的 http 和 web 套接字请求)。奇怪的是,定期访问该站点仍然有效,直到达到操作系统文件描述符限制,然后 http 完全崩溃,所有停止的连接。

没有错误,尽管在问题开始时会引发以下错误(我认为这是正在发生的任何事情的副作用,而不是原因)。

TypeError: Cannot read property '0' of null
    at null.<anonymous> (/app/node_modules/mongojs/node_modules/mongodb/lib/mongodb/collection.js:504:22)
    at args.(anonymous function) (/app/node_modules/strong-agent/lib/proxy.js:85:18)
    at g (events.js:175:14)
    at EventEmitter.emit (events.js:98:17)
    at Base.__executeAllServerSpecificErrorCallbacks (/app/node_modules/mongojs/node_modules/mongodb/lib/mongodb/connection/base.js:315:29)
    at /app/node_modules/mongojs/node_modules/mongodb/lib/mongodb/connection/repl_set/ha.js:273:22
    at /app/node_modules/mongojs/node_modules/mongodb/lib/mongodb/connection/repl_set/ha.js:370:11
    at /app/node_modules/mongojs/node_modules/mongodb/lib/mongodb/connection/repl_set/ha.js:352:28
    at _callback (/app/node_modules/mongojs/node_modules/mongodb/lib/mongodb/db.js:670:5)
    at /app/node_modules/mongojs/node_modules/mongodb/lib/mongodb/auth/mongodb_cr.js:47:13

我已经尝试提高文件描述符限制和全局代理 maxSockets 而不影响此行为。发生这种情况时不会有流量涌入,而且在高峰和非高峰时间同样经常发生。CPU 使用率始终保持在 5% 以下,并且在崩溃之前或期间没有任何可察觉的变化。服务器的可用内存也永远不会低于 1GB。

堆栈:SmartOS 云服务器 (Joyent)、Express、Socket.io、MongoDB 和 Redis。

我已经调试了好几天了,完全没有想法去哪里看。希望 SO 上的某个人遇到类似的事情,或者对可以尝试或测试的内容有不同的想法。

4

1 回答 1

8

经过无数小时的调试和更多的调试,我终于找到了罪魁祸首。在几个不同的 mongojs 回调中抛出了一个错误,这似乎已经冒泡并阻止了连接关闭。随着时间的推移,这达到了一个临界点,连接开始挂起,直到达到文件描述符限制。

错误结果出现在 Now.js 节点模块(已被放弃)中。如果有人使用 Now.js 遇到此问题,我将其分叉并修补错误。你可以在这里找到提交:https ://github.com/goldfire/now/commit/b5bd54f8950602f752a710c606be6754b759cab2 。

我发现此错误的方法是将错误侦听器附加到 DB 对象:

var db = require('mongojs').connect('...', ['collection']);
db.client.on('error', function(err){
  console.log(err.stack);
});
于 2013-09-16T13:31:09.997 回答