ssis - SSIS：仅针对特定行的模糊分组

Question

我在 Visual Studio 2012 中使用 SQL Server 集成服务，并尝试使用模糊分组组件查找不同客户引用的类似地址。这是一些示例数据（SQL Fiddle）：

    CREATE TABLE [tblAddresses] (
      [AddressId] [int] IDENTITY(1,1) NOT NULL
      ,[AddressName] [nvarchar](20) NOT NULL
      ,[Street] [nvarchar](20) NULL
      ,[ZipCode] [nvarchar](10) NULL
      ,[Town] [nvarchar](20) NULL
      ,[CustomerId] [int] NOT NULL
    )

    INSERT INTO [tblAddresses] (
      [AddressName]
      ,[Street]
      ,[ZipCode]
      ,[Town]
      ,[CustomerId]
    ) VALUES 
    (
      'John Doe'
      ,'1447 Example Street'
      ,'28815'
      ,'Smallville'
      ,1
    ), 
    (
      'Jane Doe'
      ,'1447 Example Str.'
      ,'28815'
      ,'Smallville'
      ,1
    ), 
    (
      'Jim Doe'
      ,'1447 Example Str.'
      ,'28815'
      ,'Smallville'
      ,2
    ), 
    (
      'Jack Domino'
      ,'815 Broadway Blvd.'
      ,'10000'
      ,'Capital City'
      ,2
    ), 
    (
      'Joan Doe'
      ,'1447 Example Street'
      ,'28815'
      ,'Smallville'
      ,3
    )

我以前做过这个，在没有进一步限制的情况下比较所有行没有问题。然而，今天，我只想比较列内具有不同值的CustomerId行。因此，关于我的样本数据，我对第 1 行和第 2 行之间的任何相似性不感兴趣，也不对第 3 和第 4 行之间的任何相似性感兴趣。我想知道的是：

第 3 行与第 1 行或第 5 行重复（或“近亲”）的可能性有多大？
第 4 行与第 1 行或第 5 行重复（或“近亲”）的可能性有多大？
第 5 行与第 1 行或第 3 行重复（或“近亲”）的可能性有多大？

有没有办法在模糊分组组件中集成“不同的 CustomerId 值”要求？

提前致谢。

score 1 · Accepted Answer

AFAIK 该组件不支持这一点。

相反，我会使用模糊查找转换。

在高级页面上，我将增加每次查找输出的最大匹配数并降低相似度阈值，然后将结果转储到 SQL 表中，然后使用排除 CustomerID 匹配的 WHERE 子句查询输出表。

ssis - SSIS：仅针对特定行的模糊分组

1 回答 1

Related

Reference