我在 Visual Studio 2012 中使用 SQL Server 集成服务,并尝试使用模糊分组组件查找不同客户引用的类似地址。这是一些示例数据(SQL Fiddle):
CREATE TABLE [tblAddresses] (
[AddressId] [int] IDENTITY(1,1) NOT NULL
,[AddressName] [nvarchar](20) NOT NULL
,[Street] [nvarchar](20) NULL
,[ZipCode] [nvarchar](10) NULL
,[Town] [nvarchar](20) NULL
,[CustomerId] [int] NOT NULL
)
INSERT INTO [tblAddresses] (
[AddressName]
,[Street]
,[ZipCode]
,[Town]
,[CustomerId]
) VALUES
(
'John Doe'
,'1447 Example Street'
,'28815'
,'Smallville'
,1
),
(
'Jane Doe'
,'1447 Example Str.'
,'28815'
,'Smallville'
,1
),
(
'Jim Doe'
,'1447 Example Str.'
,'28815'
,'Smallville'
,2
),
(
'Jack Domino'
,'815 Broadway Blvd.'
,'10000'
,'Capital City'
,2
),
(
'Joan Doe'
,'1447 Example Street'
,'28815'
,'Smallville'
,3
)
我以前做过这个,在没有进一步限制的情况下比较所有行没有问题。然而,今天,我只想比较列内具有不同值的CustomerId
行。因此,关于我的样本数据,我对第 1 行和第 2 行之间的任何相似性不感兴趣,也不对第 3 和第 4 行之间的任何相似性感兴趣。我想知道的是:
- 第 3 行与第 1 行或第 5 行重复(或“近亲”)的可能性有多大?
- 第 4 行与第 1 行或第 5 行重复(或“近亲”)的可能性有多大?
- 第 5 行与第 1 行或第 3 行重复(或“近亲”)的可能性有多大?
有没有办法在模糊分组组件中集成“不同的 CustomerId 值”要求?
提前致谢。