我在 mysql 数据库中有一个表“Words”。此表包含 2 个字段。word(VARCHAR(256)) 和 p_id(INTEGER)。为表创建表语句:
CREATE TABLE `Words` (
`word` varchar(256) CHARACTER SET utf8 COLLATE utf8_bin NOT NULL,
`p_id` int(11) NOT NULL DEFAULT '0',
KEY `word_i` (`word`(255))
) ENGINE=MyISAM DEFAULT CHARSET=utf8;
表中的示例条目是:
+------+------+
| word | p_id |
+------+------+
| a | 1 |
| a | 2 |
| b | 1 |
| a | 4 |
+------+------+
该表包含 30+ 百万个条目。我正在按查询运行一个组,运行该查询需要 90 多分钟。我正在运行的按查询分组是:
SELECT word,group_concat(p_id) FROM Words group by word;
为了优化这个问题,我使用以下查询将表中的所有数据发送到一个文本文件中。
SELECT p_id,word FROM Words INTO OUTFILE "/tmp/word_map.txt";
之后,我编写了一个 Perl 脚本来读取文件中的所有内容并对其进行解析并对其进行哈希处理。与 Group by query(<3 分钟)相比,它花费的时间非常少。最终哈希有 1400 万个键(字)。它占用了大量内存。那么有什么办法可以提高 Group BY 查询的性能,这样我就不需要经历上述所有步骤了?
EDT:我在下面添加 my.cnf 文件条目。
[mysqld]
datadir=/media/data/.mysql_data/mysql
tmpdir=/media/data/.mysql_tmp_data
innodb_log_file_size=5M
socket=/var/lib/mysql/mysql.sock
# Disabling symbolic-links is recommended to prevent assorted security risks
symbolic-links=0
group_concat_max_len=4M
max_allowed_packet=20M
[mysqld_safe]
log-error=/var/log/mysqld.log
pid-file=/var/run/mysqld/mysqld.pid
tmpdir=/media/data/.mysql_tmp_data/
谢谢,
维诺德