2

我有一张表,可以在其中保存曾经发生的所有行更改。问题在于,在应用程序的开头有一个错误,它会为每一行制作一堆副本。

该表如下所示:

copies
|ID |CID |DATA
| 1 | 1  |  DA
| 2 | 2  |  DO
| 2 | 3  |  DO (copy of CID 2)
| 1 | 4  |  DA (copy of CID 1)
| 2 | 5  |  DA
| 1 | 6  |  DA (copy of CID 1)
| 2 | 7  |  DO

CID 在表副本中是唯一的。

我想要的是删除所有按 CID 排序的 DATA GROUP BY ID 的重复项。

正如您在表中看到的,CID 2 和 3 是相同的,它们是一个接一个。我想删除 CID 3。与 CID 4 和 CID 6 相同;它们之间没有 ID 1,是 CID 1 的副本。

删除重复项后,我希望表格如下所示:

copies
|ID |CID |DATA
| 1 | 1  |  DA
| 2 | 2  |  DO
| 2 | 5  |  DA
| 2 | 7  |  DO

有什么建议么?:)

我认为我的问题被问得很糟糕,因为每个人似乎都认为最好的答案给出了这个结果:

ID   | DATA | DATA | DATA | DATA | DATA |     DATA |        CID          |
                                                   |Expected |  Quassnoi |
1809 |    1 |    0 |    1 |    0 |    0 |     NULL |  252227 |    252227 |
1809 |    1 |    0 |    1 |    1 |    0 |     NULL |  381530 |    381530 |
1809 |    1 |    0 |    1 |    0 |    0 |     NULL |  438158 | (missing) |
1809 |    1 |    0 |    1 |    0 | 1535 | 20090113 |  581418 |    581418 |
1809 |    1 |    1 |    1 |    0 | 1535 | 20090113 |  581421 |    581421 |

CID 252227 和 CID 438158 是重复的,但是因为 CID 381530 在它们之间;我想保留这个。当按 CID 和 ID 订购时,只有重复的重复。

4

4 回答 4

5
DELETE   c.*
FROM     copies c
JOIN     (
         SELECT  id, data, MIN(copies) AS minc
         FROM    copies
         GROUP BY
                 id, data
         ) q
ON       c.id = q.id
         AND c.data = q.data
         AND c.cid <> q.minc

更新:

DELETE  c.*
FROM    (
        SELECT  cid
        FROM    (
                SELECT  cid,
                        COALESCE(data1 = @data1 AND data2 = @data2, FALSE) AS dup,
                        @data1 := data1,
                        @data2 := data2
                FROM    (
                        SELECT  @data1 := NULL,
                                @data2 := NULL
                        ) vars, copies ci
                ORDER BY
                        id, cid
                ) qi
        WHERE   dup
        ) q
JOIN    copies c
ON      c.cid = q.cid

此解决方案使用MySQL会话变量。

有一个ANSI可以使用的纯解决方案NOT EXISTS,但是,由于MySQL优化器的工作方式(它不会range在相关子查询中使用访问方法),它会很慢。

有关非常接近的任务的性能详细信息,请参阅我的博客中的这篇文章:

于 2009-08-24T12:27:04.180 回答
1

为此,您可以count在子查询中使用 a:

delete from copies
where
    (select count(*) from copies s where s.id = copies.id 
                                   and s.data = copies.data 
                                   and s.cid > copies.cid) > 0
于 2009-08-24T12:25:03.057 回答
1
// EDITED for @Jonathan Leffler comment
//$sql = "SELECT ID,CID,DATA FROM copies ORDER BY CID, ID";
$sql = "SELECT ID,CID,DATA FROM copies ORDER BY ID, CID";
$result = mysql_query($sql, $link); 
$data = "";
$id = "";
while ($row = mysql_fetch_row($result)){ 
       if (($row[0]!=$id) && ($row[2]!=$data) && ($id!="")){
            $sql2 = "DELETE FROM copies WHERE CID=".$row[1];
            $res = mysql_query($sql2, $link); 
       }
       $id=$row[0];
       $data=$row[2];
} 
于 2009-08-24T12:32:41.717 回答
0

从副本 c 中删除 c.cid in (select max(cid) as max_cid, count(*) as num from copies where num > 1 group by id, data)

于 2009-08-24T12:35:45.057 回答