11

我已经读过为索引选择的列应该在行之间很好地区分,即索引列不应该包含大量具有相同值的行。这表明布尔值或诸如性别之类的枚举对于索引来说是一个糟糕的选择。

但是假设我想按性别查找用户,并且在我的特定数据库中,只有 2% 的用户是女性,那么在这种情况下,在获取女性用户时,性别列似乎是一个有用的索引,但在获取所有用户时却不是男性用户。

那么在这样的列上放置索引通常是一个好主意吗?

4

3 回答 3

3

索引低基数列以提高搜索性能在我的世界中很常见。Oracle 支持为这些情况设计的“位图索引”。有关简短概述,请参阅本文

我的大部分经验是使用 Oracle,但我认为其他 RDBMS 支持类似的东西。

于 2008-11-20T04:40:02.750 回答
2

不过不要忘记,您可能只会在大约 2% 的时间里选择女性。其余时间,您将寻找男性。为此,直接表扫描(而不是索引扫描加上从表中访问数据)会更快。

有时,您还可以使用复合索引,将低基数列(枚举、布尔值)与高基数列(也许是出生日期)结合起来。这在很大程度上取决于完整的数据以及您将真正使用的查询。

我的经验是,男性/女性指数很少真正有用。一般建议是有效的。还有一点要记住 - 添加或删除(或更新)行时必须维护索引。索引越多,每个修改操作要做的工作就越多,从而降低系统速度。

有整本关于索引设计的书籍。

于 2008-11-20T04:43:17.190 回答
1

在这种情况下,我会让服务器统计信息告诉我何时创建索引。除非您知道此查询将占主导地位,或者运行此类查询不会先验地满足您的性能目标,否则过早地创建索引可能只会降低性能而不是提高性能。此外,您可能需要考虑如何实际使用查询。在这种情况下,我的猜测是您通常会根据此列进行某种聚合,而不是简单地选择符合条件的用户。在那种情况下,无论如何您都会进行表扫描,而索引不会给您带来任何好处。

于 2008-11-20T04:24:35.153 回答