我正在使用一个庞大的数据库,该数据库每天都会更新以获取新条目。为了找到重复项,我们使用使用 hashbytes 函数的校验和,然后自定义删除重复项函数,或者只使用合并函数导入唯一条目。但是,当一组条目被认为是唯一的业务信息时,我们会遇到一些困难。
例如:
date name adress
2013-07-01 peter ad1
2013-07-01 peter ad2
2013-07-01 peter ad3
2013-07-02 peter ad1
2013-07-02 peter ad2
2013-07-02 peter ad3
2013-07-04 peter ad1
2013-07-04 peter ad3
2013-07-05 peter ad1
2013-07-05 peter ad2
2013-07-05 peter ad3
期望的结果是
date name adress
2013-07-01 peter ad1
2013-07-01 peter ad2
2013-07-01 peter ad3
2013-07-04 peter ad1
2013-07-04 peter ad3
2013-07-05 peter ad1
2013-07-05 peter ad2
2013-07-05 peter ad3
这是一个简化的情况,一般来说,导入函数应该能够考虑组合几个属性来识别唯一的行集。