2

我正在从流式 API 收集数据,我想创建一个实时分析仪表板。此仪表板将显示一个简单的时间序列,绘制每小时的文档数量。我想知道我目前的方法是否最佳。

在以下示例中,为流中的每个新文档触发 on_data。

# Mongo collections.
records = db.records
stats = db.records.statistics

on_data(self, data):
    # Create a json document from data.
    document = simplejson.loads(data)

    # Insert the new document into records.
    records.insert(document)

    # Update a counter in records.statistics for the hour this document belongs to. 
    stats.update({ 'hour': document['hour'] }, { '$inc': { document['hour']: 1 } }, upsert=True)

以上工作。我得到了一个漂亮的图表,它绘制了每小时的文档数量。我的问题是这种方法是否最佳。我对每个文档提出两个 Mongo 请求。第一个插入文档,第二个更新计数器。流每秒发送大约 10 个新文档。

例如有没有告诉 Mongo 将 db.records.statistics 保存在 RAM 中?我想这会大大减少我服务器上的磁盘访问。

4

1 回答 1

3

MongoDB 使用内存映射来处理文件 I/O,因此它本质上将所有数据视为已经在 RAM 中,并让操作系统找出细节。简而言之,你不能强迫你的收藏在内存中,但如果操作系统处理得很好,那么重要的东西就会是。查看此文档链接以获取有关 mongo 内存模型以及如何优化操作系统配置以最适合您的用例的更多信息:http: //docs.mongodb.org/manual/faq/storage/

但是要具体回答您的问题:您应该没问题。在任何情况下,每秒 10 或 20 次写入都不应该成为磁盘瓶颈(假设您在非古代硬件上运行)。我建议的一件事是在统计信息中建立一个超过“小时”的索引,如果您还没有这样做,那么您的更新可以更快地找到文档。

于 2013-09-17T20:27:28.210 回答