我正在开发一个研究平台,该平台通过 Twitter API 读取相关的 Twitter 提要,并将它们存储在 PostgreSQL 数据库中以供将来分析。中间件是 Perl,服务器是 HP ML310,8GB RAM 运行 Debian linux。
问题是 twitter 提要可能非常大(每秒有很多条目),我不能在返回等待下一条推文之前等待插入。所以我所做的是使用一个 fork() ,所以每条推文都有一个新的进程来插入数据库和侦听器并快速返回以获取下一条推文。然而,因为这些进程中的每一个都有效地打开了到 PostgreSQL 后端的新连接,所以系统永远不会赶上它的 twitter 提要。
如果有必要,我愿意使用连接池建议和/或升级硬件来完成这项工作,但如果有任何建议,我将不胜感激。这可能是 RAM 限制,还是我可以尝试使系统足够快的配置或软件方法?