0

我有一个 BQ 表,其中包含相同 ad_id 的重复(x2 次)行。

我想删除 ts > 120 min 的旧行,其中有一个具有相同 ad_id 的新行(架构包含timestamp, ad_id, value. But there is not rowId)。

这是我的尝试,有更好的方法吗?

DELETE FROM {table_full_name} o
       WHERE timestamp < TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 120 MINUTE) AND timestamp in ( 
                                            SELECT MIN(timestamp) 
                                            FROM  {table_full_name}  i 
                                            WHERE i.ad_id=o.ad_id 
                                            GROUP  BY ad_id) 

数据示例:

`ad-id` | `ts`             | `value`   |
`1`     | Sep-1-2021 12:01 | `Scanned` |
`2`     | Sep-1-2021 12:02 | `Error`   |
`1`     | Sep-1-2021 12:03 | `Removed` |

我想把它清理成:

`ad-id` | `ts`             | `value`   |
`2`     | Sep-1-2021 12:02 | `Error`   |
`1`     | Sep-1-2021 12:03 | `Removed` |

我看到了这篇文章,但是 BQ 不支持row-id.

我看到了这个帖子。但是如何在没有 ts 间隔的情况下修改它(因为它是未知的)。

4

1 回答 1

2

你可以试试这个脚本。用于COUNT() with HAVING从当前时间拉取时间戳早于 120 分钟的重复记录,使用TIMESTAMP_DIFF.

DELETE
FROM `table_full_name` 
WHERE ad_id in (SELECT ad_id 
                    FROM `table_full_name`
                    GROUP BY ad_id
                    HAVING COUNT(ad_id) > 1) 
AND TIMESTAMP_DIFF(CURRENT_TIMESTAMP(), timestamp, MINUTE) > 120

前:

在此处输入图像描述

后:

在此处输入图像描述

于 2021-09-23T03:51:37.527 回答