我正在处理一个大型 MySQL 数据库,我需要提高特定表的 INSERT 性能。这一行包含大约 2 亿行,其结构如下:
(一个小前提:我不是数据库专家,所以我写的代码可能是基于错误的基础。请帮助我理解我的错误:))
CREATE TABLE IF NOT EXISTS items (
id INT NOT NULL AUTO_INCREMENT,
name VARCHAR(200) NOT NULL,
key VARCHAR(10) NOT NULL,
busy TINYINT(1) NOT NULL DEFAULT 1,
created_at DATETIME NOT NULL,
updated_at DATETIME NOT NULL,
PRIMARY KEY (id, name),
UNIQUE KEY name_key_unique_key (name, key),
INDEX name_index (name)
) ENGINE=MyISAM
PARTITION BY LINEAR KEY(name)
PARTITIONS 25;
每天我都会收到许多 csv 文件,其中每一行都由一对“name;key”组成,所以我必须解析这些文件(为每一行添加值 created_at 和 updated_at)并将这些值插入到我的表中。在这一个中,“name”和“key”的组合必须是唯一的,所以我实现了插入过程如下:
CREATE TEMPORARY TABLE temp_items (
id INT NOT NULL AUTO_INCREMENT,
name VARCHAR(200) NOT NULL,
key VARCHAR(10) NOT NULL,
busy TINYINT(1) NOT NULL DEFAULT 1,
created_at DATETIME NOT NULL,
updated_at DATETIME NOT NULL,
PRIMARY KEY (id)
)
ENGINE=MyISAM;
LOAD DATA LOCAL INFILE 'file_to_process.csv'
INTO TABLE temp_items
FIELDS TERMINATED BY ','
OPTIONALLY ENCLOSED BY '\"'
(name, key, created_at, updated_at);
INSERT INTO items (name, key, busy, created_at, updated_at)
(
SELECT temp_items.name, temp_items.key, temp_items.busy, temp_items.created_at, temp_items.updated_at
FROM temp_items
)
ON DUPLICATE KEY UPDATE busy=1, updated_at=NOW();
DROP TEMPORARY TABLE temp_items;
刚刚显示的代码可以让我达到我的目标,但是要完成执行,它需要大约 48 小时,这是一个问题。我认为这种糟糕的性能是由于脚本必须检查一个非常大的表(2 亿行)并且对于每个插入“名称;键”对是唯一的。
如何提高脚本的性能?
提前感谢大家。