我正在开发一个 SSIS 包,我需要对名称列表进行重复数据删除,按姓氏和名字排序。还有其他列,例如前缀、中间名和后缀。我遇到的问题是,在某些情况下,我会遇到以下问题:
+========+===========+============+==========+========+
| Prefix | FirstName | MiddleName | LastName | Suffix |
+========+===========+============+==========+========+
| | John | | Doe | |
+--------+-----------+------------+----------+--------+
| Mr. | John | | Doe | |
+--------+-----------+------------+----------+--------+
| | John | A. | Doe | |
+--------+-----------+------------+----------+--------+
如果我只是让 sort 删除欺骗,那么就哪一行将幸存而言,这是抽签的运气。但是,显然,我更愿意保留尽可能多的信息。
最好的结果显然是合并这三个,所以在我的结果集中,我最终只得到“Mr. John A. Doe”。除此之外,如果有某种方法我可以简单地指定一个优先级,比如如果中间名有一个值,那么就取那个。我可能仍然会丢失一些信息,但在我的特定数据集中很少有像我上面的示例中那样有多个不同的欺骗。通常,它只有一个有中间名,一个没有。
对于我在 Visual Studio 2013 中的 SSDT-BI 中工作的价值。