7

在 mysql 表中插入一些数据时,我遇到了性能问题。该表有一堆列,假设 DATE,A,B,C,D,E,F 其中 DATE,A,B,C,D,E 是主键。每天,我在该表中插入 70k 行(日期不同),现在该表包含 1800 万行。我用来插入行的方法只是发送 70k INSERT 查询。

我遇到的问题是查询开始比以前花费更多的时间。从几分钟到几个小时。我分析了插入物,这是我得到的图表:

每个插入的速度(以秒为单位)与当天的插入次数: 每次插入的速度(以秒为单位)与当天的插入次数

几个奇怪的事实:

  1. 大多数查询的执行时间不到 2 毫秒
  2. 慢查询的速度随着该日期表中的行数线性增加
  3. 这种行为只发生在晚上,在数据库上发生了一堆进程之后。白天插入很快,周末也是如此
  4. 整体速度不取决于数据库上运行的其他内容,实际上,发生这种情况时,数据库上没有运行其他任何内容
  5. 查询中没有什么可以说明一个查询快与否,快的和慢的很相似,从一天到另一天也不一样。
  6. 行为不会从一天到另一天发生变化。

知道是什么原因造成的吗?

** 编辑 ** 索引中的列按以下顺序排列:

DATE NOT NULL,
DATE NOT NULL,
VARCHAR (10) NOT NULL,
VARCHAR (45) NOT NULL,
VARCHAR (45) NOT NULL,
VARCHAR (3) NOT NULL,
VARCHAR (45) NOT NULL,
DOUBLE NOT NULL,
VARCHAR (10) NOT NULL,
VARCHAR (45) NOT NULL,
VARCHAR (45) NOT NULL,
VARCHAR (45) NOT NULL,

日期要么与今天相同,要么留空,双精度数始终相同(不知道是谁设计了这张表)

4

1 回答 1

3

简短的解释是您有一个在一天范围内非增量的索引。非增量索引通常插入/更新较慢,因为它们更经常需要重新平衡索引树,并且在更大程度上比增量索引。

为了进一步解释这一点 - 假设以下模式:

a (int) | b (varchar)

并且索引是(a, b)

现在我们插入:

1, 'foo'
2, 'bar'
3, 'baz'

这将非常快,因为索引将附加在每个插入上。现在让我们尝试以下方法:

100, 'foo'
100, 'bar'
100, 'baz'

这不会那么快,因为 'bar' 需要在 'foo' 之前插入,而 'baz' 需要在其他 2 之间插入。这通常需要索引重写树以适应,并且这种“重新平衡”行动需要一些时间。重新平衡中涉及的组件越大(在这种情况下,a=100 的子集),所需的时间就越多。请注意,这种重新平衡活动只会更频繁更广泛地发生,但不一定在每次插入时发生。这是因为树通常会在叶子内留出一些空间用于扩展。当树叶用完时,它知道是时候重新平衡了。

在您的情况下,由于您的索引主要基于当前日期,因此您会在一天的范围内不断地重新平衡您的树。每天都会开始一个新的范围,因此开始在当天的范围内重新平衡。最初,这仅涉及一点重新平衡,但这会随着您当天现有条目范围的增加而增加。当您开始新的一天时,循环重新开始,这就是您所看到的结果。

这种情况发生在主键上可能会使事情变得更糟,因为可能需要移动整行数据以适应新条目,而不是移动一些索引指针。(最后一点假设 MyISAM 聚类是在主键上执行的,这一点我至今还没有得到澄清,尽管轶事证据似乎支持这一点。例如,请参阅此处此处。)

于 2013-09-17T20:12:32.540 回答