mysql - 在 MySQL 中维护一个包含唯一值的大表

Question

这可能是一种常见情况，但我在 SO 或 Google 上找不到具体答案。

我在 MySQL 数据库上有一个包含朋友关系的大表（>1000 万行），该表非常重要，需要维护以确保没有重复的行。该表存储用户的 uid。该表的 SQL 是：

CREATE TABLE possiblefriends(
 id INT NOT NULL AUTO_INCREMENT, 
 PRIMARY KEY(id),
 user INT, 
 possiblefriend INT)

该表的工作方式是每个用户有大约 1000 个左右的“可能的朋友”被发现并需要存储，但需要避免重复的“可能的朋友”。

问题是，由于程序的设计，在一天的时间里，我需要向表中添加 100 万行或更多行，这些行可能是重复的行条目，也可能不是重复的行条目。简单的答案似乎是检查每一行以查看它是否重复，如果不是，则将其插入表中。但是随着表大小增加到 1 亿行、10 亿行或更高（我预计很快会实现），这种技术可能会变得非常缓慢。

维护这个独特表的最佳（即最快）方法是什么？

我不需要总是有一张只有唯一值的表。对于批处理作业，我只需要每天一次。在这种情况下，我是否应该创建一个单独的表来插入所有可能的行（包含重复行和所有行），然后在一天结束时创建第二个表来计算第一个表中的所有唯一行？

如果没有，长期使用这张桌子的最佳方式是什么？

（如果索引是最好的长期解决方案，请告诉我要使用哪些索引）

score 8 · Accepted Answer

8

于 2010-11-11T08:29:19.190 回答

score 2 · Accepted Answer

唯一索引可以让您确定该字段确实是唯一的，您可以像这样添加唯一索引：

CREATE TABLE possiblefriends( 
 id INT NOT NULL AUTO_INCREMENT,  
 PRIMARY KEY(id), 
 user INT,  
 possiblefriend INT,
PRIMARY KEY (id),
UNIQUE INDEX DefUserID_UNIQUE (user ASC, possiblefriend ASC))

这也将显着加快您的表访问。

批量插入的另一个问题有点棘手，您可以使用下面的内置 ON DUPLICATE KEY UPDATE 功能：

INSERT INTO table (a,b,c) VALUES (1,2,3)
  ON DUPLICATE KEY UPDATE c=c+1;

UPDATE table SET c=c+1 WHERE a=1;

mysql - 在 MySQL 中维护一个包含唯一值的大表

2 回答 2

Related

Reference