我在我们的网络应用程序上遇到了一个非常奇怪且看似随机的问题,我似乎无法成功调试。它可以正常运行 10 分钟到 6 小时,然后突然之间无法向服务器发出或来自服务器的远程请求,它们只是挂起(这包括常规的 http 和 web 套接字请求)。奇怪的是,定期访问该站点仍然有效,直到达到操作系统文件描述符限制,然后 http 完全崩溃,所有停止的连接。
没有错误,尽管在问题开始时会引发以下错误(我认为这是正在发生的任何事情的副作用,而不是原因)。
TypeError: Cannot read property '0' of null
at null.<anonymous> (/app/node_modules/mongojs/node_modules/mongodb/lib/mongodb/collection.js:504:22)
at args.(anonymous function) (/app/node_modules/strong-agent/lib/proxy.js:85:18)
at g (events.js:175:14)
at EventEmitter.emit (events.js:98:17)
at Base.__executeAllServerSpecificErrorCallbacks (/app/node_modules/mongojs/node_modules/mongodb/lib/mongodb/connection/base.js:315:29)
at /app/node_modules/mongojs/node_modules/mongodb/lib/mongodb/connection/repl_set/ha.js:273:22
at /app/node_modules/mongojs/node_modules/mongodb/lib/mongodb/connection/repl_set/ha.js:370:11
at /app/node_modules/mongojs/node_modules/mongodb/lib/mongodb/connection/repl_set/ha.js:352:28
at _callback (/app/node_modules/mongojs/node_modules/mongodb/lib/mongodb/db.js:670:5)
at /app/node_modules/mongojs/node_modules/mongodb/lib/mongodb/auth/mongodb_cr.js:47:13
我已经尝试提高文件描述符限制和全局代理 maxSockets 而不影响此行为。发生这种情况时不会有流量涌入,而且在高峰和非高峰时间同样经常发生。CPU 使用率始终保持在 5% 以下,并且在崩溃之前或期间没有任何可察觉的变化。服务器的可用内存也永远不会低于 1GB。
堆栈:SmartOS 云服务器 (Joyent)、Express、Socket.io、MongoDB 和 Redis。
我已经调试了好几天了,完全没有想法去哪里看。希望 SO 上的某个人遇到类似的事情,或者对可以尝试或测试的内容有不同的想法。