我正在尝试从具有数百万行的表中删除重复的行。我要检查重复项的字段太长(它正在存储 URL),无法放置UNIQUE
索引。有什么方法可以快速删除重复项?
删除重复项的推荐方法:
DELETE t1 FROM table1 AS t1 JOIN table1 AS t2 ON t1.id>t2.id AND t1.name=t2.name;
似乎永远不会完成它的工作,尽管我想它可能只需要很多时间来完成。
我在这里听到的一个想法是创建一个MD5
哈希列用于索引和比较。这是推荐的路线吗?如果是这样,出于空间/速度考虑,我是否应该截断此列?