mysql - 将字符串列存储在索引中是否实用？

Question

假设我们有这个示例结构/数据：

@see fiddle at http://sqlfiddle.com/#!8/1f85e/1

-- SET GLOBAL innodb_file_per_table=1;
DROP TABLE IF EXISTS mysql_index_reading_myisam;
CREATE TABLE IF NOT EXISTS mysql_index_reading_myisam (
    id INT NOT NULL AUTO_INCREMENT
  , str VARCHAR(50) NOT NULL
  , enm ENUM('thatis', 'thequestion') NOT NULL
  , cnt TINYINT NOT NULL

  , PRIMARY KEY (id)
  , INDEX str_cnt (str, cnt)
  , INDEX enm_cnt (enm, cnt)

) ENGINE=MyISAM CHARSET=Latin1;
INSERT INTO mysql_index_reading_myisam (str, enm, cnt) VALUES
    ('Tobeornottobe', 'Thatis', 1)
  , ('toBeornottobe', 'thatIs', 2)
  , ('tobeOrnottobe', 'ThatIs', 3)
  , ('tobeorNottobe', 'thatis', 4)
  , ('tobeornotTobe', 'THATIS', 5)
;
DROP TABLE IF EXISTS mysql_index_reading_innodb;
CREATE TABLE mysql_index_reading_innodb LIKE mysql_index_reading_myisam;
ALTER TABLE mysql_index_reading_innodb ENGINE InnoDB;
INSERT INTO mysql_index_reading_innodb SELECT * FROM mysql_index_reading_myisam;

EXPLAIN SELECT cnt FROM mysql_index_reading_myisam WHERE str = 'tobeornottobe';
EXPLAIN SELECT cnt FROM mysql_index_reading_innodb WHERE str = 'tobeornottobe';
EXPLAIN SELECT cnt FROM mysql_index_reading_myisam WHERE enm = 'thatis';
EXPLAIN SELECT cnt FROM mysql_index_reading_innodb WHERE enm = 'thatis';

让我们检查一下它是如何在内部存储的

# egrep --ignore-case --only-matching --text '(tobeornottobe|thatis)' *
mysql_index_reading_innodb.frm:thatis
mysql_index_reading_innodb.ibd:Tobeornottobe
mysql_index_reading_innodb.ibd:toBeornottobe
mysql_index_reading_innodb.ibd:tobeOrnottobe
mysql_index_reading_innodb.ibd:tobeorNottobe
mysql_index_reading_innodb.ibd:tobeornotTobe
mysql_index_reading_innodb.ibd:Tobeornottobe
mysql_index_reading_innodb.ibd:toBeornottobe
mysql_index_reading_innodb.ibd:tobeOrnottobe
mysql_index_reading_innodb.ibd:tobeorNottobe
mysql_index_reading_innodb.ibd:tobeornotTobe
mysql_index_reading_myisam.frm:thatis
mysql_index_reading_myisam.MYD:Tobeornottobe
mysql_index_reading_myisam.MYD:toBeornottobe
mysql_index_reading_myisam.MYD:tobeOrnottobe
mysql_index_reading_myisam.MYD:tobeorNottobe
mysql_index_reading_myisam.MYD:tobeornotTobe
mysql_index_reading_myisam.MYI:Tobeornottobe
mysql_index_reading_myisam.MYI:toBeornottobe

在这两个引擎中，枚举都存储在 *.frm 中。好的。
在两个引擎中，数据都存储在数据和数据/索引文件中。好的。
在 MyISAM 索引中有两条记录。
在 InnoDB 索引中，所有五条记录的大小写都正确。

我已经发现的

http://dev.mysql.com/doc/refman/5.1/en/mysql-indexes.html

在某些情况下，可以优化查询以在不查阅数据行的情况下检索值。如果查询仅使用表中的数字列并且形成某个键的最左前缀，则可以从索引树中检索所选值以获得更快的速度：

从 tbl_name 中选择 key_part3，其中 key_part1=1

http://www.mysqlperformanceblog.com/2009/09/12/3-ways-mysql-uses-indexes/

使用索引读取数据一些存储引擎（包括 MyISAM 和 Innodb）也可以使用索引读取数据，从而避免读取行数据本身。这不仅节省了每个索引条目 2 次读取而不是 1 次，而且在某些情况下它可以节省 IO 数量级 - 索引已排序（至少在页面边界上），因此进行索引范围扫描通常会从同一页面，但行本身可以分散在许多页面上，这可能需要大量的 IO。最重要的是，如果您只需要访问几列，索引可以比数据小得多，这是覆盖索引有助于加快查询速度的原因之一，即使数据在内存中也是如此。如果 MySQL 只读取索引而不访问行，您将在 EXPLAIN 输出中看到“使用索引”。

然后在 sql_select.cc 的来源：http://bazaar.launchpad.net/~mysql/mysql-server/5.1/view/head: /sql/sql_select.cc#L12834

/*
  We can remove binary fields and numerical fields except float,
  as float comparison isn't 100 % secure
  We have to keep normal strings to be able to check for end spaces
*/
if (field->binary() &&
    field->real_type() != MYSQL_TYPE_STRING &&
    field->real_type() != MYSQL_TYPE_VARCHAR &&
    (field->type() != MYSQL_TYPE_FLOAT || field->decimals() == 0))
{
  return !store_val_in_field(field, right_item, CHECK_FIELD_WARN);
}

所以我的问题是

存储在索引字符串列中是否可行，只需要作为数据？例如有20列的表，我们经常需要strcolumn，即通过intcolumn搜索。创建像 (intcolumn,strcolumn) 这样的索引好还是我们真的只需要 (intcolumn) ？
innodb 引擎中的 mysql 是否真的为检索数据做了一些额外的操作（当我们看到“Using where; Using index”时）？
ENUM 也一样。它发生了，因为 Enum_field 的 real_type 返回 MYSQL_TYPE_STRING。它对枚举做同样的事情吗？
那么我们可以假设，枚举是超级邪恶的，我们应该总是只使用简单的引用表来代替吗？
对于 MyISAM，这是可以理解的，因为它在索引中存储的不是所有值。但是为什么它要存储两个值——不是一个？
如果这一切真的发生了——它只是 mysql 内核的当前限制，不依赖于具体的处理程序实现吗？

ps：我看到这个问题很大。如果有人会帮助重新制定/打破它——那就太好了。

Update1：添加另一个关于“使用索引”与“使用索引；使用位置”的 SQL

@see fiddle at http://sqlfiddle.com/#!8/3f287/2

DROP TABLE IF EXISTS tab;
CREATE TABLE IF NOT EXISTS tab (
    id INT NOT NULL AUTO_INCREMENT
  , num1 TINYINT NOT NULL
  , num2 TINYINT
  , str3 CHAR(1) NOT NULL

  , PRIMARY KEY (id)
  , INDEX num1_num2 (num1, num2)
  , INDEX num1_str3 (num1, str3)
  , INDEX num2_num1 (num2, num1)
  , INDEX str3_num1 (str3, num1)

) ENGINE=InnoDB;
INSERT INTO tab (num1, num2, str3) VALUES
    (1, 1, '1')
  , (2, 2, '2')
  , (3, 3, '3')
  , (4, 4, '4')
  , (5, 5, '5')
  , (6, 6, '6')
  , (7, 7, '7')
  , (8, 8, '8')
  , (9, 9, '9')
  , (0, 0, '0')
;
INSERT INTO tab (num1, num2, str3) SELECT num1, num2, str3 FROM tab;

-- Using index
EXPLAIN SELECT num2 FROM tab WHERE num1 =  5;
EXPLAIN SELECT str3 FROM tab WHERE num1 =  5;
-- Using where; Using index
EXPLAIN SELECT num1 FROM tab WHERE num2 =  5;
EXPLAIN SELECT num1 FROM tab WHERE str3 = '5';

问题 #2

为什么在非 null int 搜索的情况下，我们只看到“使用索引”？
但是在可为空的 int OR 字符串的情况下——我们还看到“在哪里使用”？
mysql 在那里做了哪些额外的操作？

score 7 · Accepted Answer

存储在索引字符串列中是否可行，只需要作为数据？例如有20列的表，我们经常需要strcolumn，即通过intcolumn搜索。创建像 (intcolumn,strcolumn) 这样的索引好还是我们真的只需要 (intcolumn) ？

这称为覆盖指数；它的性能优势是能够从索引文件中检索选定的列，而无需从表数据的记录中查找值。

与所有事物一样，它的使用是一种权衡，在某些情况下可能是合适的，但在其他情况下可能不合适。
innodb 引擎中的 mysql 是否真的为检索数据做了一些额外的操作（当我们看到“Using where; Using index”时）？

您的问题链接到的 sqlfiddle 显示Using where; Using index所有四个查询。如EXPLAIN额外信息中所述：
输出列Extra包含EXPLAIN有关 MySQL 如何解析查询的附加信息。下面的列表解释了可以出现在此列中的值。
```
[删除]
```
- Using index
  
  仅使用索引树中的信息从表中检索列信息，而无需执行额外的查找来读取实际行。当查询仅使用属于单个索引的列时，可以使用此策略。
  
  如果该Extra列还显示Using where，则表示该索引正在用于执行键值查找。如果没有Using where，优化器可能会读取索引以避免读取数据行，但不会将其用于查找。例如，如果索引是查询的覆盖索引，优化器可能会扫描它而不使用它进行查找。
因此，无论使用何种存储引擎，您的所有查询都使用覆盖索引进行查找和数据检索。

当您说“ innodb 引擎确实为检索数据做了一些额外的操作”时，我不清楚您指的是什么。EXPLAIN我可以看到的输出的唯一区别是 InnoDB 查询在列中显示了一个较低的值Rows；但是，如文件所述：

该rows列指示 MySQL 认为它必须检查以执行查询的行数。

对于InnoDB表格，这个数字是一个估计值，可能并不总是准确的。
ENUM 也一样。它发生了，因为 Enum_field 的 real_type 返回 MYSQL_TYPE_STRING。它对枚举做同样的事情吗？

同样，当您说“同样发生”时，我不清楚您指的是什么。然而，如上所述，Using where; Using index仅表明覆盖索引已用于查找和数据检索。

此外，ENUM字段具有real_typeof MYSQL_TYPE_ENUM，不是MYSQL_TYPE_STRING。见sql/field.h:1873：
```
  enum_field_types real_type() const { return MYSQL_TYPE_ENUM; }
```
那么我们可以假设，枚举是超级邪恶的，我们应该总是只使用简单的引用表来代替吗？

有很多理由要避免ENUM，但我认为您的问题没有涉及其中任何一个。
对于 MyISAM，这是可以理解的，因为它在索引中存储的不是所有值。但是为什么它要存储两个值——不是一个？

结果egrep导致你得出错误的结论。仅仅因为模式的不区分大小写搜索在文件中"tobeornottobe"找到两个匹配的字符串并不意味着 MyISAM 索引有两个记录。数据结构是一棵树，如下：.myi
```
              /\
             / \
Tobeornottobe toBeornottobe
                   /\
                  / \
     tobeornottobeorNottobe
                       \
                        \
                         生存还是毁灭
```
从查看所有字符串.myi索引文件中可以得到一些提示：
```
$ 字符串 mysql_index_reading_myisam.MYI
生存还是毁灭
生存还是毁灭
成为或不成为
或Nottobe
不是托比
```
因此，如果您对 pattern 执行（不区分大小写）搜索"nottobe"，您将找到五个匹配项而不是两个。

您可以在The .MYIFile中阅读有关 MyISAM 索引结构的存储格式的更多信息。
如果这一切真的发生了——它只是 mysql 内核的当前限制，不依赖于具体的处理程序实现吗？

恐怕我不知道这里要问什么。

mysql - 将字符串列存储在索引中是否实用？

假设我们有这个示例结构/数据：

让我们检查一下它是如何在内部存储的

我已经发现的

所以我的问题是

Update1：​​添加另一个关于“使用索引”与“使用索引；使用位置”的 SQL

问题 #2

1 回答 1

Related

Reference

Update1：添加另一个关于“使用索引”与“使用索引；使用位置”的 SQL