我有来自客户端的数据,这是一个很好的重复信息的混乱。我将运行一个清理查询,它抓取转储的数据,进行一些清理,并最终将其放入一个新表中。
这是一个脚本:
INSERT INTO Spend (...)
SELECT ...
FROM Facilities F
JOIN Dump d
ON d.facname = f.name
AND f.city = d.city
到目前为止,一切都很好。当有新的数据转储时会出现此问题。我只想得到最新的东西。我想不出一种看起来很有效的方法。一个快速简单的WHERE NOT
子句是行不通的(我不认为......),因为没有任何独特的数据列。条目的唯一性实际上仅取决于大多数(如果不是全部)列的组合。考虑到去年一家公司的转储是 20k 行,为每个转储循环遍历它们似乎是一个糟糕的主意。一旦我们在这里获得了一些用户并且数据追溯到一年多前,似乎清理工作过于密集。
或者,也许我只是一个 n00b 并且正在从一个鼹鼠山中制造一座山。感谢您的任何建议或指示-
编辑#1
附上样本记录集的图像
第一个 col 是 Business 表中企业 ID 的外键。剩下的就是购买记录。此表用于搜索。那么,在清理并转储到新的可搜索表之后,唯一唯一的列是每行的自动递增 ID。