我一直在阅读 DataSift 如何使用不同的技术来使用 twitter firehose,并且由于我需要遵循相同的概念,因此想了解 mongo/redis 之间的差异及其在实时数据存储中的使用。我的理解是:流量太大,无法简单地消费和放置数据(推文等),例如rabbitmq队列。我担心的是数据丢失的问题。我当前的架构涉及连接到一个开放流并使用数据并将每个帖子或消息推送到 rabbitmq 中的几个队列中。队列保存每条消息的副本,一个是处理队列,一个是存储队列。
如果我的音量增加 100 倍,我被告知当前的设置将无法处理音量,使用 mongo/redis 方法会更好。所以不确定这将如何实现:然后我会将流消耗到 mongo 中,然后从那里进入队列,为什么这是一个更好的方法。