mysql - 优化 MySQL 慢计数查询和按天分组

Question

我正在以下 MySQL MyISAM 表中跟踪网站上的点击：

CREATE TABLE `track_hits` (
  `hit_id` int(10) unsigned NOT NULL auto_increment,
  `referer` varchar(255) default NULL,
  `referer_checksum` int(10) default NULL,
  `domain_checksum` int(10) default NULL,
  `referer_local` enum('Yes','No') default NULL,
  `request` varchar(255) default NULL,
  `request_checksum` int(10) default NULL,
  `embed_id` int(10) unsigned default NULL,
  `embed_user_id` int(10) unsigned default NULL,
  `embed_campaign_id` int(10) unsigned default NULL,
  `date` datetime default NULL,
  `day_checksum` int(10) default NULL,
  `visit_id` int(10) unsigned default NULL,
  PRIMARY KEY  (`hit_id`),
  KEY `referer_checksum` (`referer_checksum`),
  KEY `date` (`date`),
  KEY `visit_id` (`visit_id`),
  KEY `embed_user_id` (`embed_user_id`),
  KEY `embed_campaign_id` (`embed_campaign_id`),
  KEY `day_checksum` (`day_checksum`),
  KEY `domain_checksum` (`domain_checksum`),
  KEY `embed_id` (`embed_id`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8;

该表中有超过 500 万行。

我希望在特定日期范围内每天visit_id每个广告系列 ( )的总点击次数和唯一用户总数（基于不同的）。embed_campaign_id我正在用这个查询来做这件事：

SELECT COUNT(DISTINCT h.`visit_id`) AS `visits`, COUNT(h.`hit_id`) AS `hits`, `date`
FROM (`track_hits` h)
WHERE `h`.`embed_campaign_id` = '31'
AND `h`.`date` >= '2012-10-07 07:00:00'
AND `h`.`date` <= '2012-11-07 07:59:59'
GROUP BY `h`.`day_checksum`

运行大约需要 15-25 秒。

day_checksum是日期的 crc32 编码版本，即“2012-11-07”。我已经用没有增加速度替换GROUP BY了DATE(h.date)。

解释返回：

id  select_type table   type    possible_keys           key                 key_len     ref     rows        extra
1   SIMPLE      h       ref     date,embed_campaign_id  embed_campaign_id   5           const   1648683     Using where; Using filesort

我考虑过每天使用汇总表，但是该站点已本地化，并且数据库中的所有日期都以 GMT 为单位。因此，10/07 @ 7PM EST 到 11/07 @7PM EST 将需要返回与 10/07 @ 7PM PST 到 11/07 @7PM PST 不同的计数。

有什么办法可以加快速度吗？

score 2 · Accepted Answer

每列都有一个索引。我认为您可以使用复合（多列）索引获得更好的性能。

http://dev.mysql.com/doc/refman/5.0/en/multiple-column-indexes.html

像这样的东西：

KEY compositeIndex (embed_campaign_id, date, day_checksum, visit_id, hit_id)

score 0 · Accepted Answer

只是一些疯狂的猜测：

做一个anaylize table
将引擎更改为 InnoDB
dateis not in group by，要么完全忽略它，要么将其替换为，day_checksum要么将两者都更改为date(date)
去掉周围的牙套from (track_hits h)
确保，不是硬件，这是瓶颈

最后，每天一次 15-25 秒的等待时间并不长。

mysql - 优化 MySQL 慢计数查询和按天分组

2 回答 2

Related

Reference