我正在开发具有以下特征的实时应用程序:
- 数百个客户端将同时插入行/文档,每个客户端每隔几秒钟插入一行。
- 很大程度上只追加;几乎所有的行/文档,一旦插入,就永远不会改变。
- 只有当数据被刷新到磁盘时,客户端才能看到成功,此后读写一致性应该保持。
- 客户愿意等待几秒钟的时间来确认 - 足够长的时间来进行多次磁盘查找和写入。
- 有太多数据无法放入 RAM(排除 Redis 等选项)。但是很久以前写入的行很少被访问,因此不将它们放在内存中是可以接受的。
- 理想情况下,这些写入不应阻塞读取。
- 键值存储很好,但至少需要一个可靠的自增索引。
换句话说(和 tl;dr),客户端可以容忍延迟,但他们需要大量可信赖的写入吞吐量 - 比“一次写入是一次磁盘操作”更高的吞吐量。
我正在设想一个可以像这样实现的数据库:接受(理论上受文件描述符数量限制)数量的 TCP 连接,在内存中缓冲这些写入,尽可能频繁地将它们的批次记录到磁盘(连同自动递增索引的更新),并且仅在相关的磁盘写入操作完成时才响应这些 TCP 连接。或者它可以像延迟写入数据库一样简单,它发布一条已完成磁盘写入的消息(客户端等待延迟响应,然后等待写入消息报告成功)。
我认为具有如此高的延迟容忍度,这并没有要求太多。而且我想其他人也遇到过这个问题,例如金融公司,它们不能承受丢失数据,但可以承受延迟对任何一个客户的响应。
是否有任何久经考验的数据库解决方案,如 Postgres、CouchDB/Couchbase 或 MongoDB 支持这样的操作模式?