mongodb - 对简单但大数据库中的小集合的 mongoDB 查询速度非常慢

Question

所以我在 mongoDB 中有一个超级简单的数据库，里面有几个集合：

> show collections
Aggregates <-- count: 92
Users <-- count: 68222
Pages <-- count: 1728288847, about 1.1TB
system.indexes

Aggregates集合是集合的聚合，Pages每个文档如下所示：

> db.Aggregates.findOne()
{
        "_id" : ObjectId("50f237126ba71610eab3aaa5"),
        "daily_total_pages" : 16929799,
        "day" : 21,
        "month" : 9,
        "year" : 2011
}

非常简单。但是，让我们尝试通过将所有 92 天相加来获得总页面加载daily page loads：

>>> def get_total():
...     start = datetime.now()
...     print sum([x['daily_total_pages'] for x in c.Aggregates.find()])
...     end = datetime.now()
...     print (end-start).seconds
...
>>> get_total()
1728288847
43

43 秒?!??!??!?!

那 92 个汇总结果很小！我不妨将它们存储在文本文件中，这太疯狂了。

还是它们很小？根据 mongo，它们在磁盘上有多大？

> db.Aggregates.stats()
{
        "ns" : "c.AggregateResults",
        "count" : 92,
        "size" : 460250104,
        "avgObjSize" : 5002718.521739131,
        "storageSize" : 729464832,
        "numExtents" : 7,
        "nindexes" : 2,
        "lastExtentSize" : 355647488,
        "paddingFactor" : 1.0690000000000066,
        "systemFlags" : 1,
        "userFlags" : 0,
        "totalIndexSize" : 16352,
        "indexSizes" : {
                "_id_" : 8176,
                "date_1" : 8176
        },
        "ok" : 1
}

这些微小的每日数字总共有 438 兆字节？每一个大约是 280 字节，所以它们总共应该是 25~30kb 的最大值。所以存储量很大，查询超级慢。它有可能在磁盘上碎片化吗？在将文档插入完整Pages集合后，我创建了聚合。

有人对这种疯狂有任何见解吗？:O

编辑：解决了 Jared 更具体的 find() 查询。Sammaye 提供的以下视频也提供了一些非常有趣的存储见解。

编辑2：所以我发现使用 sys.getsizeof() 是找出文档大小的一种非常不可靠的方法，因为它不会递归任何树。所以实际上我的文档非常大，最好的办法是使用 find({}, {'daily_page_loads'}) 作为更具体的查询！

score 9 · Accepted Answer

这avgObjSize与 280 字节的估计值不符。这是说您的对象平均约为 5MB，storageSize接近 1GB。如果内存受限，运行需要访问所有 1GB 文件的查询会导致大量页面错误。

你试过压缩吗？

db.runCommand({compact: 'Aggregates'})

或修理？

db.repairDatabase()

如果这不起作用，请尝试仅拉回总和所需的那些字段，而不是拉动整个文档。可能这些文档实际上是 5MB，而且时间花在通过网络提取数据上。

def get_total():
    start = datetime.now()
    print sum([x['daily_total_pages'] for x in c.Aggregates.find({}, {"daily_total_pages": 1})])
    end = datetime.now()
    print (end-start).seconds

mongodb - 对简单但大数据库中的小集合的 mongoDB 查询速度非常慢

1 回答 1

Related

Reference