-1

我在 Visual Studio 2012 中使用 SQL Server 集成服务,并尝试使用模糊分组组件查找不同客户引用的类似地址。这是一些示例数据(SQL Fiddle):

    CREATE TABLE [tblAddresses] (
      [AddressId] [int] IDENTITY(1,1) NOT NULL
      ,[AddressName] [nvarchar](20) NOT NULL
      ,[Street] [nvarchar](20) NULL
      ,[ZipCode] [nvarchar](10) NULL
      ,[Town] [nvarchar](20) NULL
      ,[CustomerId] [int] NOT NULL
    )

    INSERT INTO [tblAddresses] (
      [AddressName]
      ,[Street]
      ,[ZipCode]
      ,[Town]
      ,[CustomerId]
    ) VALUES 
    (
      'John Doe'
      ,'1447 Example Street'
      ,'28815'
      ,'Smallville'
      ,1
    ), 
    (
      'Jane Doe'
      ,'1447 Example Str.'
      ,'28815'
      ,'Smallville'
      ,1
    ), 
    (
      'Jim Doe'
      ,'1447 Example Str.'
      ,'28815'
      ,'Smallville'
      ,2
    ), 
    (
      'Jack Domino'
      ,'815 Broadway Blvd.'
      ,'10000'
      ,'Capital City'
      ,2
    ), 
    (
      'Joan Doe'
      ,'1447 Example Street'
      ,'28815'
      ,'Smallville'
      ,3
    )

我以前做过这个,在没有进一步限制的情况下比较所有行没有问题。然而,今天,我只想比较列内具有不同值的CustomerId行。因此,关于我的样本数据,我对第 1 行和第 2 行之间的任何相似性不感兴趣,也不对第 3 和第 4 行之间的任何相似性感兴趣。我想知道的是:

  1. 第 3 行与第 1 行或第 5 行重复(或“近亲”)的可能性有多大?
  2. 第 4 行与第 1 行或第 5 行重复(或“近亲”)的可能性有多大?
  3. 第 5 行与第 1 行或第 3 行重复(或“近亲”)的可能性有多大?

有没有办法在模糊分组组件中集成“不同的 CustomerId 值”要求?

提前致谢。

4

1 回答 1

1

AFAIK 该组件不支持这一点。

相反,我会使用模糊查找转换。

在高级页面上,我将增加每次查找输出的最大匹配数并降低相似度阈值,然后将结果转储到 SQL 表中,然后使用排除 CustomerID 匹配的 WHERE 子句查询输出表。

于 2014-04-09T06:52:11.607 回答