1

在查询同一文档的两个字段时,我创建了 4 个索引来测试我的集合中的查询性能,其中一个是数组(需要多键索引)。其中两个索引是单一的和两个复合的。

我很惊讶,因为使用单个索引之一比使用复合索引获得更好的性能。我期望使用复合索引获得最佳性能,因为我知道它索引两个字段允许更快的查询。

这些是我的索引:

{    "v" : 1, 
     "key" : { "_id" : 1 }, 
     "ns" : "bt_twitter.mallorca.mallorca", 
     "name" : "_id_"  
}, 
{    "v" : 1, 
     "key" : { "epoch_creation_date" :1 }, 
     "ns" : "bt_twitter.mallorca.mallorca", 
     "name" : "epoch_creation_date_1"  
}, 
{     "v" : 1, 
      "key" : { "related_hashtags" : 1 }, 
      "ns" : "bt_twitter.mallorca.mallorca", 
      "name" : "related_hashtags_1"  
},  
{     "v" : 1, 
      "key" : { "epoch_creation_date" : 1, "related_hashtags" : 1 }, 
      "ns" : "bt_twitter.mallorca.mallorca", 
      "name" : "epoch_creation_date_1_related_hashtags_1"  
}

我的查询和性能指标是(提示参数显示每个查询使用的索引):

问题 1:

active_collection.find(
    {'epoch_creation_date': {'$exists': True}}, 
    {"_id": 0, "related_hashtags":1}
).hint([("epoch_creation_date", ASCENDING)]).explain()

毫:237

已扫描:101226

问题 2:

active_collection.find(
    {'epoch_creation_date': {'$exists': True}}, 
    {"_id": 0, "related_hashtags": 1}
).hint([("related_hashtags", ASCENDING)]).explain()

米斯:1131

已扫描:306715

问题 3:

active_collection.find(
     {'epoch_creation_date': {'$exists': True}},
     {"_id": 0, "related_hashtags": 1}
).hint([("epoch_creation_date", ASCENDING), ("related_hashtags", ASCENDING)]).explain()

毫:935

已扫描:306715

问题 4:

active_collection.find(
     {'epoch_creation_date': {'$exists': True}}, 
     {"_id": 0, "related_hashtags": 1}
).hint([("related_hashtags", ASCENDING),("epoch_creation_date", ASCENDING)]).explain()

毫:1165

已扫描:306715

QUERY 1 扫描的文档更少,可能是什么原因会更快。有人可以帮我理解为什么它比使用复合索引的查询执行得更好吗?因此,什么时候使用复合索引比使用单一索引更好?

我正在阅读 mongo 文档,但这些概念让我难以消化。

提前致谢。

更新的问题(回应 Sammaye 和 Philipp)

这是一个完整的解释()的结果

"cursor" : "BtreeCursor epoch_creation_date_1",
"isMultiKey" : false,
"n" : 101226,
"nscannedObjects" : 101226,
"nscanned" : 101226,
"nscannedObjectsAllPlans" : 101226,
"nscannedAllPlans" : 101226,
"scanAndOrder" : false,
"indexOnly" : false,
"nYields" : 0,
"nChunkSkips" : 0,
"millis" : 242,
"indexBounds" : {u'epoch_creation_date': [[{u'$minElement': 1}, {u'$maxElement': 1}]]

},
"server" : "vmmongodb:27017"

对于以下查询:

active_collection.find(
{'epoch_creation_date': {'$exists': True}}, 
{"_id": 0, "related_hashtags":1})
.hint([("epoch_creation_date", ASCENDING)]).explain()
4

2 回答 2

2

您创建了一个复合索引(名为epoch_creation_date_1_related_hashtags_1),但您没有在这些提示中使用它。取而代之的是,您正在使用您还以不同顺序创建的两个单字段索引 (related_hashtags_1epoch_creation_date_1)。

在这两个索引中,只有epoch_creation_date_1有效,因为您没有查询这两个字段。您只查询一个,这是'epoch_creation_date': {'$exists': True}. 您执行的字段过滤{"_id": 0, "related_hashtags":1}是在该查询找到的文档上完成的。到那时,索引就不再有用了。这意味着任何索引related_hashtags都无法提高此查询的性能。复合索引(当您实际使用它时)可能总比没有索引好,但不如epoch_creation_date仅使用索引。

于 2013-11-29T12:43:00.673 回答
0

好的,在阅读了更多问题后,我了解了问题。多键索引将写入一个索引条目 PER 多值。这意味着如果related_hashtags每个文档有 3 个值,则索引实际上是大小的 3 倍,要扫描的值的数量是 3 倍(如果我的数学加起来......)。

nscanned是查看文档的次数的计数器(注意计数器,不是查看的特定文档数量),这意味着由于多键索引,您必须扫描大约 3 倍的(相同)文档数量通常会用于第一个查询。

这是一个关于多键索引的已知警告,以及为什么你应该小心像这样扔掉它们。

我相信第三个查询如此慢的原因是因为多键索引不能支持indexOnly游标,所以 MongoDB 不能在那里使用覆盖查询。

于 2013-11-29T12:53:24.807 回答