如果您有两个具有相同产品列的不同记录,那么您可以使用某些标准选择不需要的记录,例如
CREATE TABLE victims AS
SELECT MAX(entryDate) AS date, Product, COUNT(*) AS dups FROM ProductsTable WHERE ...
GROUP BY Product HAVING dups > 1;
然后您可以在 ProductTable 和 Victims 之间执行 DELETE JOIN。
或者您也可以仅选择 Product,然后对其他一些 JOIN 条件执行 DELETE,例如具有无效的 CustomerId、EntryDate NULL 或其他任何内容。如果您知道产品只有一个有效副本,并且所有其他副本都可以通过无效数据识别,则此方法有效。
假设您有 IDENTICAL 记录(或者您有相同和不同的记录,或者您可能对某些产品有多个重复项,而您不知道是哪个)。您运行完全相同的查询。然后,您在 ProductsTable 上运行 SELECT 查询并 SELECT DISTINCT 所有与要删除的产品代码匹配的产品,按产品分组,并为所有字段选择合适的聚合函数(如果相同,任何聚合都应该这样做。否则我通常尝试使用 MAX或最小值)。这将为每个产品“保存”一行。
此时您运行 DELETE JOIN 并杀死所有重复的产品。然后,只需将保存和重复数据删除的子集重新导入主表。
当然,在 DELETE JOIN 和 INSERT SELECT 之间,您的数据库将处于不稳定状态,所有具有至少一个重复项的产品都会消失。
另一种应该在 MySQL 中工作的方法:
-- Create an empty table
CREATE TABLE deduped AS SELECT * FROM ProductsTable WHERE false;
CREATE UNIQUE INDEX deduped_ndx ON deduped(Product);
-- DROP duplicate rows, Joe the Butcher's way
INSERT IGNORE INTO deduped SELECT * FROM ProductsTable;
ALTER TABLE ProductsTable RENAME TO ProductsBackup;
ALTER TABLE deduped RENAME TO ProductsTable;
-- TODO: Copy all indexes from ProductsTable on deduped.
注意:如果您想区分“好记录”和“无效重复”,上述方法不起作用。仅当您有多余的DUPLICATE记录,或者您不在乎保留哪一行以及丢弃哪一行时,它才有效!
编辑:你说“重复”有无效的字段。在这种情况下,您可以使用排序技巧修改上述内容:
SELECT * FROM ProductsTable ORDER BY Product, FieldWhichShouldNotBeNULL IS NULL;
然后,如果您只有一排产品,一切都很好,它将被选中。如果您有更多,将首先选择并插入 (FieldWhichShouldNeverBeNull IS NULL) 为 FALSE 的那个(即 FieldWhichShouldNeverBeNull 实际上不为 null 的那个)。由于 IGNORE 条款,所有其他人都将无声地反弹,反对产品的唯一性。不是一个非常漂亮的方法(并检查我没有在我的子句中混合 true 和 false !),但它应该工作。
编辑
实际上更多的是一个新的答案
这是一个简单的表格来说明问题
CREATE TABLE ProductTable ( Product varchar(10), Description varchar(10) );
INSERT INTO ProductTable VALUES ( 'CBPD10', 'C-Beam Prj' );
INSERT INTO ProductTable VALUES ( 'CBPD11', 'C Proj Mk2' );
INSERT INTO ProductTable VALUES ( 'CBPD12', 'C Proj Mk3' );
还没有索引,也没有主键。我们仍然可以将 Product 声明为主键。
但是坏事发生了。两条新记录进入,并且都有 NULL 描述。
然而,第二个是一个有效的产品,因为我们之前对 CBPD14 一无所知,因此我们不想完全失去这个记录。不过,我们确实希望摆脱虚假的 CBPD10。
INSERT INTO ProductTable VALUES ( 'CBPD10', NULL );
INSERT INTO ProductTable VALUES ( 'CBPD14', NULL );
粗鲁的 DELETE FROM ProductTable WHERE Description IS NULL 是不可能的,它会杀死不是重复的 CBPD14。
所以我们这样做。首先获取重复列表:
SELECT Product, COUNT(*) AS Dups FROM ProductTable GROUP BY Product HAVING Dups > 1;
我们假设:“每组不良记录至少有一个良好记录”。
我们通过提出相反的假设并查询它来检查这个假设。如果一切都是 copacci,我们希望此查询不返回任何内容。
SELECT Dups.Product FROM ProductTable
RIGHT JOIN ( SELECT Product, COUNT(*) AS Dups FROM ProductTable GROUP BY Product HAVING Dups > 1 ) AS Dups
ON (ProductTable.Product = Dups.Product
AND ProductTable.Description IS NOT NULL)
WHERE ProductTable.Description IS NULL;
为了进一步验证,我插入了两条代表这种故障模式的记录;现在我确实希望上面的查询返回新代码。
INSERT INTO ProductTable VALUES ( "AC5", NULL ), ( "AC5", NULL );
现在“检查”查询确实返回了,
AC5
所以,Dups一代看起来不错。
我现在继续删除所有无效的重复记录。如果有重复的有效记录,它们将保持重复,除非可以找到某些条件,在它们之间区分一个“好”记录并声明所有其他记录“无效”(可能使用与描述不同的字段重复该过程)。
但是,是的,有一个摩擦。目前,您不能从表中删除并在子查询中从同一个表中选择( http://dev.mysql.com/doc/refman/5.0/en/delete.html )。所以需要一些解决方法:
CREATE TEMPORARY TABLE Dups AS
SELECT Product, COUNT(*) AS Duplicates
FROM ProductTable GROUP BY Product HAVING Duplicates > 1;
DELETE ProductTable FROM ProductTable JOIN Dups USING (Product)
WHERE Description IS NULL;
现在这将删除所有无效记录,前提是它们出现在 Dups 表中。
因此我们的 CBPD14 记录将保持不变,因为它不会出现在那里。CBPD10 的“好”记录将保持不变,因为它的 Description 为 NULL 是不正确的。所有其他人 - 噗。
让我再次声明,如果一个记录没有有效记录但 它是重复的,那么该记录的所有副本都将被杀死——将没有幸存者。
为了避免这种情况,可以先选择(使用上面的查询,检查“应该什么都不返回”)代表这种失败模式的行到另一个临时表中,然后在删除后将它们插入回主表中(使用事务可能是为了)。