sql - 删除没有主键的重复项

Question

这里要删除具有重复列值 ( Product) 的行，然后将其用作主键。

该列是类型nvarchar，我们不希望一个产品有 2 行。该数据库很大，我们需要删除大约数千行。

在查询所有重复项期间，我们希望保留第一项并删除第二项作为重复项。

目前还没有主键，我们希望在删除重复项之后创建它。那么该Product列可能是我们的主键。

数据库是 SQL Server CE。

我尝试了几种方法，并且大多得到类似于以下的错误：

解析查询时出错。[令牌行号= 2，令牌行偏移量= 1，错误令牌= FROM]

我尝试过的一种方法：

DELETE FROM TblProducts
FROM TblProducts w
    INNER JOIN (
            SELECT Product
            FROM TblProducts
            GROUP BY Product
            HAVING COUNT(*) > 1
            )Dup ON w.Product = Dup.Product

尝试用类似的东西学习和调整我的代码的首选方法（它还不正确）：

SELECT Product, COUNT(*) TotalCount
FROM TblProducts
GROUP BY Product
HAVING COUNT(*) > 1
ORDER BY COUNT(*) DESC

--
;WITH cte   -- These 3 lines are the lines I have more doubt on them
     AS (SELECT ROW_NUMBER() OVER (PARTITION BY Product
                                       ORDER BY ( SELECT 0)) RN
         FROM   Word)
DELETE FROM cte
WHERE  RN > 1

score 4 · Accepted Answer

如果您有两个具有相同产品列的不同记录，那么您可以使用某些标准选择不需要的记录，例如

 CREATE TABLE victims AS
     SELECT MAX(entryDate) AS date, Product, COUNT(*) AS dups FROM ProductsTable WHERE ...
     GROUP BY Product HAVING dups > 1;

然后您可以在 ProductTable 和 Victims 之间执行 DELETE JOIN。

或者您也可以仅选择 Product，然后对其他一些 JOIN 条件执行 DELETE，例如具有无效的 CustomerId、EntryDate NULL 或其他任何内容。如果您知道产品只有一个有效副本，并且所有其他副本都可以通过无效数据识别，则此方法有效。

假设您有 IDENTICAL 记录（或者您有相同和不同的记录，或者您可能对某些产品有多个重复项，而您不知道是哪个）。您运行完全相同的查询。然后，您在 ProductsTable 上运行 SELECT 查询并 SELECT DISTINCT 所有与要删除的产品代码匹配的产品，按产品分组，并为所有字段选择合适的聚合函数（如果相同，任何聚合都应该这样做。否则我通常尝试使用 MAX或最小值）。这将为每个产品“保存”一行。

此时您运行 DELETE JOIN 并杀死所有重复的产品。然后，只需将保存和重复数据删除的子集重新导入主表。

当然，在 DELETE JOIN 和 INSERT SELECT 之间，您的数据库将处于不稳定状态，所有具有至少一个重复项的产品都会消失。

另一种应该在 MySQL 中工作的方法：

-- Create an empty table
CREATE TABLE deduped AS SELECT * FROM ProductsTable WHERE false;

CREATE UNIQUE INDEX deduped_ndx ON deduped(Product);

-- DROP duplicate rows, Joe the Butcher's way
INSERT IGNORE INTO deduped SELECT * FROM ProductsTable;

ALTER TABLE ProductsTable RENAME TO ProductsBackup;

ALTER TABLE deduped RENAME TO ProductsTable;
-- TODO: Copy all indexes from ProductsTable on deduped.

注意：如果您想区分“好记录”和“无效重复”，上述方法不起作用。仅当您有多余的DUPLICATE记录，或者您不在乎保留哪一行以及丢弃哪一行时，它才有效！

编辑：你说“重复”有无效的字段。在这种情况下，您可以使用排序技巧修改上述内容：

  SELECT * FROM ProductsTable ORDER BY Product, FieldWhichShouldNotBeNULL IS NULL;

然后，如果您只有一排产品，一切都很好，它将被选中。如果您有更多，将首先选择并插入 (FieldWhichShouldNeverBeNull IS NULL) 为 FALSE 的那个（即 FieldWhichShouldNeverBeNull 实际上不为 null 的那个）。由于 IGNORE 条款，所有其他人都将无声地反弹，反对产品的唯一性。不是一个非常漂亮的方法（并检查我没有在我的子句中混合 true 和 false ！），但它应该工作。

编辑
实际上更多的是一个新的答案

这是一个简单的表格来说明问题

CREATE TABLE ProductTable ( Product varchar(10), Description varchar(10) );
INSERT INTO ProductTable VALUES ( 'CBPD10', 'C-Beam Prj' );
INSERT INTO ProductTable VALUES ( 'CBPD11', 'C Proj Mk2' );
INSERT INTO ProductTable VALUES ( 'CBPD12', 'C Proj Mk3' );

还没有索引，也没有主键。我们仍然可以将 Product 声明为主键。

但是坏事发生了。两条新记录进入，并且都有 NULL 描述。

然而，第二个是一个有效的产品，因为我们之前对 CBPD14 一无所知，因此我们不想完全失去这个记录。不过，我们确实希望摆脱虚假的 CBPD10。

INSERT INTO ProductTable VALUES ( 'CBPD10', NULL );
INSERT INTO ProductTable VALUES ( 'CBPD14', NULL );

粗鲁的 DELETE FROM ProductTable WHERE Description IS NULL 是不可能的，它会杀死不是重复的 CBPD14。

所以我们这样做。首先获取重复列表：

SELECT Product, COUNT(*) AS Dups FROM ProductTable GROUP BY Product HAVING Dups > 1;

我们假设：“每组不良记录至少有一个良好记录”。

我们通过提出相反的假设并查询它来检查这个假设。如果一切都是 copacci，我们希望此查询不返回任何内容。

SELECT Dups.Product FROM ProductTable
RIGHT JOIN ( SELECT Product, COUNT(*) AS Dups FROM ProductTable GROUP BY Product HAVING Dups > 1 ) AS Dups
ON (ProductTable.Product = Dups.Product
        AND ProductTable.Description IS NOT NULL)
WHERE ProductTable.Description IS NULL;

为了进一步验证，我插入了两条代表这种故障模式的记录；现在我确实希望上面的查询返回新代码。

INSERT INTO ProductTable VALUES ( "AC5", NULL ), ( "AC5", NULL );

现在“检查”查询确实返回了，

AC5

所以，Dups一代看起来不错。

我现在继续删除所有无效的重复记录。如果有重复的有效记录，它们将保持重复，除非可以找到某些条件，在它们之间区分一个“好”记录并声明所有其他记录“无效”（可能使用与描述不同的字段重复该过程）。

但是，是的，有一个摩擦。目前，您不能从表中删除并在子查询中从同一个表中选择( http://dev.mysql.com/doc/refman/5.0/en/delete.html )。所以需要一些解决方法：

CREATE TEMPORARY TABLE Dups AS
     SELECT Product, COUNT(*) AS Duplicates
         FROM ProductTable GROUP BY Product HAVING Duplicates > 1;

DELETE ProductTable FROM ProductTable JOIN Dups USING (Product)
    WHERE Description IS NULL;

现在这将删除所有无效记录，前提是它们出现在 Dups 表中。

因此我们的 CBPD14 记录将保持不变，因为它不会出现在那里。CBPD10 的“好”记录将保持不变，因为它的 Description 为 NULL 是不正确的。所有其他人 - 噗。

让我再次声明，如果一个记录没有有效记录但它是重复的，那么该记录的所有副本都将被杀死——将没有幸存者。

为了避免这种情况，可以先选择（使用上面的查询，检查“应该什么都不返回”）代表这种失败模式的行到另一个临时表中，然后在删除后将它们插入回主表中（使用事务可能是为了）。

score 1 · Accepted Answer

通过编写旧表的脚本并重命名它来创建一个新表。还将所有对象（索引等）从旧表写入新表。将守门员插入新表中。如果您的数据库处于批量记录或简单恢复模式，则此操作将被最低限度地记录。删除旧表，然后将新表重命名为旧名称。

与删除相比，这样做的优点是可以最少地记录插入。删除会做双重工作，因为不仅数据会被删除，而且删除必须写入事务日志。对于大表，最少记录的插入将比删除快得多。

score 1 · Accepted Answer

如果它不是那么大并且您有一些停机时间，并且您有 Sql Server Management Studio，您可以使用 GUI 在表上放置一个标识字段。现在你有了像你的 CTE 这样的情况，除了行本身是真正不同的。所以现在您可以执行以下操作

SELECT MIN(table_a.MyTempIDField)
FROM
table_a lhs
join table_1 rhs
 on lhs.field1 = rhs.field1
 and lhs.field2 = rhs.field2 [etc]
WHERE
 table_a.MyTempIDField <> table_b.MyTempIDField
GROUP BY
 lhs.field1, rhs.field2 etc

这为您提供了所有“好”的副本。现在您可以使用 DELETE FROM 查询来包装此查询。

DELETE FROM lhs
FROM table_a lhs
join table_b rhs
 on lhs.field1 = rhs.field1
 and lhs.field2 = rhs.field2 [etc]
WHERE
 lhs.MyTempIDField <> rhs.MyTempIDField
 and lhs.MyTempIDField not in (

SELECT MIN(lhs.MyTempIDField)
FROM
table_a lhs
join table_a rhs
 on lhs.field1 = rhs.field1
 and lhs.field2 = rhs.field2 [etc]
WHERE
 lhs.MyTempIDField <> rhs.MyTempIDField
GROUP BY
  lhs.field1, lhs.field2 etc
)

score -2 · Accepted Answer

尝试这个：

DELETE FROM TblProducts     
WHERE Product IN
      (
     SELECT Product
     FROM TblProducts
     GROUP BY Product
     HAVING COUNT(*) > 1)

这样做的缺陷是它删除了具有重复产品的所有记录。您可能想要做的是删除给定产品的每组记录中的所有记录。首先将所有重复项复制到单独的表中，然后以某种方式从该表中删除重复项，然后应用上述内容，然后将剩余的产品复制回原始表，这可能是值得的。

sql - 删除没有主键的重复项

4 回答 4

Related

Reference