我将尝试通过示例来解释这意味着什么。基于 B-tree 的索引不是 mongodb 特定的。相比之下,这是一个相当普遍的概念。
因此,当您创建索引时 - 您向数据库展示了一种更简单的查找方式。但是这个索引存储在某个地方,指针指向原始文档的位置。此信息是有序的,您可能会将其视为具有非常好的属性的二叉树:搜索从O(n)
(线性扫描)减少到O(log(n))
. 这要快得多,因为每次我们将空间减半(可能我们可以将时间从 10^6 减少到 20 次查找)。例如,我们有一个带有字段的大集合,{a : some int, b: 'some other things'}
如果我们按 a 对其进行索引,我们最终会得到另一个按 排序的数据结构a
。它看起来是这样的(我并不是说它是另一个集合,这只是为了演示):
{a : 1, pointer: to the field with a = 1}, // if a is the smallest number in the starting collection
...
{a : 999, pointer: to the field with a = 990} // assuming that 999 is the biggest field
所以现在我们正在搜索一个字段 a = 18。我们不是逐个遍历所有元素,而是在中间取一些东西,如果它大于 18,那么我们将下半部分分成两半并检查那里的元素. 我们继续直到我们找到 a = 18。然后我们查看指针并知道它我们提取原始字段。
复合索引的情况类似(而不是按一个元素排序,我们按多个排序)。例如,您有一个集合:
{ "item": 5, "location": 1, "stock": 3, 'a lot of other fields' } // was stored at position 5 on the disk
{ "item": 1, "location": 3, "stock": 1, 'a lot of other fields' } // position 1 on the disk
{ "item": 2, "location": 5, "stock": 7, 'a lot of other fields' } // position 3 on the disk
... huge amount of other data
{ "item": 1, "location": 1, "stock": 1, 'a lot of other fields' } // position 9 on the disk
{ "item": 1, "location": 1, "stock": 2, 'a lot of other fields' } // position 7 on the disk
并想要一个索引 { "item": 1, "location": 1, "stock": 1 }。查找表看起来像这样(再一次 - 这不是另一个集合,这只是为了演示):
{ "item": 1, "location": 1, "stock": 1, pointer = 9 }
{ "item": 1, "location": 1, "stock": 2, pointer = 7 }
{ "item": 1, "location": 3, "stock": 1, pointer = 1 }
{ "item": 2, "location": 5, "stock": 7, pointer = 3 }
.. huge amount of other data (but not necessarily here. If item would be one it would be somewhere next to items 1)
{ "item": 5, "location": 1, "stock": 3, pointer = 5 }
看到这里所有的东西基本上都是按项目排序的,然后是位置,然后是指针。与使用单个索引的方式相同,我们不需要扫描所有内容。如果我们有一个查找的查询,item = 2, location = 5 and stock = 7
我们可以快速识别文档在哪里item = 2
,然后以同样的方式快速识别这些项目中的哪里,location 5
等等。
现在是一个有趣的部分。另外我们只创建了一个索引(虽然这是一个复合索引,但它仍然是一个索引)我们可以使用它来快速找到元素
- 仅由
item
. 真的,我们需要做的只是第一步。所以没有必要再创建一个索引 {location : 1} 因为它已经被复合索引覆盖了。
- 我们也只能通过
item and by location
(我们只需要 2 个步骤)快速找到。
酷 1 索引,但以三种不同的方式帮助我们。但是等一下:如果我们想通过item and stock
. 哦,看起来我们也可以加快这个查询的速度。我们可以在 log(n) 中找到具有特定项目的所有元素,并且......在这里我们必须停止 - 魔术已经完成。我们需要遍历所有这些。但还是很不错的。
但它可以帮助我们解决其他问题。让我们看一个location
看起来已经订购的查询。但如果你仔细看一下——你会发现这是一团糟。一个在开始,然后一个在结束。它根本无法帮助你。
我希望这可以澄清一些事情:
- 为什么索引很好(将时间从 O(n) 减少到可能的 O(log(n))
- 为什么复合索引可以帮助一些查询但是我们还没有在那个特定的字段上创建一个索引来帮助一些其他的查询。
- 复合索引涵盖哪些索引
- 为什么索引会造成伤害(它会创建应维护的额外数据结构)
这应该说明另一件有效的事情:索引不是灵丹妙药。您无法加快所有查询的速度,因此认为通过在所有字段上创建索引一切都会非常快,这听起来很愚蠢。