5

我在 SQL 中开发匹配算法时遇到问题。我有一张桌子subjects。这些中的每一个都需要与表中相同数量的行匹配controls(为了这个问题,假设需要为每个主题选择两行或控件)。所选控件的位置必须完全匹配,并且所选控件的值应match_field尽可能接近受试者。

以下是一些示例数据:

表主题:

id   location    match_field
1    1           190
2    2           2000
3    1           100

表格控件:

id   location    match_field
17    1          70
11    1          180
12    1          220
13    1          240
14    1          500
15    1          600
16    1          600
10    2          30
78    2          1840
79    2          2250

以下是样本数据的最佳结果:

subject_id control_id  location    match_field_diff
1          12          1           30
1          13          1           50
2          78          2           160
2          79          2           250
3          17          1           30
3          11          1           80

它变得很棘手,因为例如,控件 11 是与主题 1 最接近的匹配项。但是,在最佳解决方案中,控件 11 与主题 3 匹配。

我相信匈牙利算法接近这个问题的“正确”解决方案。但是,受试者和对照的数量不相等,也不会使用所有对照(我有几千个受试者和几百万个潜在对照)。

没有必要获得绝对最优的结果;一个很好的近似值对我来说很好。

似乎应该有一个很好的基于集合的解决方案来解决这个问题,但我想不出该怎么做。这是一些仅根据位置为每个主题分配相同数量的控件的代码:

select * from (
    select   subject.id, 
             control.id,
             subject.location,
             row_number() over (
                 partition by subject.location
                 order by subject.id, control.id
             ) as rn,
             count(distinct control.id)     over (
                 partition by subject.location
             ) as controls_in_loc
         from subjects
         join controls on control.location = subject.location
    )
    where mod(rn,controls_in_loc+1) = 1

但是,我不知道如何添加模糊匹配组件。我正在使用 DB2,但如果您使用其他东西,可以将算法转换为 DB2。

在此先感谢您的帮助!

更新:我主要相信 SQL 不是这项工作的正确工具。然而,为了确定(并且因为这是一个有趣的问题),我提供了一个赏金来看看是否有可能工作的 SQL 解决方案。它需要是一个基于集合的解决方案。它可以使用迭代(在同一个查询上多次循环以获得结果),但迭代次数需要远小于大表的行数。它不应遍历表中的每个元素或使用游标。

4

2 回答 2

5

尽管匈牙利算法会起作用,但在您的情况下可以使用更简单的算法。您的隐含成本矩阵是一种特殊形式的对称矩阵:

ABS(SUBJ.match_field-CTRL.match_field)

因此,您可以相对容易地证明,在按的值排序的最优赋值{SUBJ i , CTRL j }中也将被排序。SUBJ.match_fieldCTRL.match_field

证明:考虑一个未由排序的赋值{SUBJ i , CTRL j }。那么你至少有一个反转,即一对赋值{SUBJ i1 , CTRL j1 }{SUBJ i2 , CTRL j2 }这样SUBJ.match_fieldCTRL.match_field

SUBJ.match_fieldi1 < SUBJ.match_fieldi2,但是

CTRL.match_fieldj1 > CTRL.match_fieldj2

然后你可以用非倒置的一对替换倒置的对

{SUBJ i1 , CTRL j2 }{SUBJ i2 , CTRL j1 }

SUBJ.match_field对于( i1 , i2 ) 和CTRL.match_field( j1 , j2 )的所有六个相对布局,成本小于或等于反向分配的成本(链接到 Wolfram Alpha)。:证明

有了这个观察,很容易证明下面的动态规划算法提出了最优分配:

  • 复制N每个主题;订购match_field
  • 按顺序控制match_field
  • 准备一个空数组assignments大小N * subject.SIZE
  • 通过for memmemoization准备一个空的 2D数组;将所有元素设置为N * subject.SIZEcontrol.SIZE-1
  • Recursive_Assign在下面的伪代码中定义的调用
  • assignments表现在包含在、 包含 和、 不包含之间位置N的每个主题的分配。iN*iN*(i+1)

FUNCTION Recursive_Assign
    // subjects contains each original subj repeated N times
    PARAM subjects : array of int[subjectLength]
    PARAM controls: array of int[controlLength]
    PARAM mem : array of int[subjectLength,controlLength]
    PARAM sp : int // current subject position
    PARAM cp : int // current control position
    PARAM assign : array of int[subjectLength]
BEGIN
    IF sp == subjects.Length THEN RETURN 0 ENDIF
    IF mem[sp, cp] > 0 THEN RETURN mem[sp, cp] ENDIF
    int res = ABS(subjects[sp] - controls[cp])
            + Recursive_Assign(subjects, controls, mem, sp + 1, cp + 1, assign)
    assign[sp] = cp
    IF cp+1+subjects.Length-sp < controls.Length THEN
        int alt = Recursive_Assign(subjects, controls, mem, sp, cp + 1, assign)
        IF alt < res THEN
            res = alt
        ELSE
            assign[sp] = cp
        ENDIF
    ENDIF
    RETURN (mem[sp, cp] = res)
END

这是在 ideone 上使用 C# 实现的上述伪代码。

该算法已准备好在 SQL 中重写为基于集合的算法。试图将其融入原始问题设置(按位置分组并制作主题的多个副本)会给已经相当复杂的过程增加不必要的复杂层,所以我将通过使用表来简化一些事情SQL Server 的值参数。我不确定 DB2 是否提供类似的功能,但如果没有,您应该能够将它们替换为临时表。

下面的存储过程几乎是将上述伪代码直接转录为 SQL Server 的存储过程语法:

CREATE TYPE SubjTableType AS TABLE (row int, id int, match_field int)
CREATE TYPE ControlTableType AS TABLE (row int, id int, match_field int)
CREATE PROCEDURE RecAssign (
    @subjects SubjTableType READONLY
,   @controls ControlTableType READONLY
,   @sp int
,   @cp int
,   @subjCount int
,   @ctrlCount int
) AS BEGIN
    IF @sp = @subjCount BEGIN
        RETURN 0
    END
    IF 1 = (SELECT COUNT(1) FROM #MemoTable WHERE sRow=@sp AND cRow=@cp) BEGIN
        RETURN (SELECT best FROM #MemoTable WHERE sRow=@sp AND cRow=@cp)
    END
    DECLARE @res int, @spNext int, @cpNext int, @prelim int, @alt int, @diff int, @sId int, @cId int
    SET @spNext = @sp + 1
    SET @cpNext = @cp + 1
    SET @sId = (SELECT id FROM @subjects WHERE row = @sp)
    SET @cId = (SELECT id FROM @controls WHERE row = @cp)
    EXEC @prelim = RecAssign @subjects=@subjects, @controls=@controls, @sp=@spNext, @cp=@cpNext, @subjCount=@subjCount, @ctrlCount=@ctrlCount
    SET @diff = ABS((SELECT match_field FROM @subjects WHERE row=@sp)-(SELECT match_field FROM @controls WHERE row=@cp))
    SET @res = @prelim + @diff
    IF 1 = (SELECT COUNT(1) FROM #Assignments WHERE sRow=@sp) BEGIN
        UPDATE #Assignments SET cId=@cId, sId=@sId, diff=@diff WHERE sRow=@sp
    END
    ELSE BEGIN
        INSERT INTO #Assignments(sRow, sId, cId, diff) VALUES (@sp, @sId, @cId, @diff)
    END
    IF @cp+1+@subjCount-@sp < @ctrlCount BEGIN
        EXEC @alt = RecAssign @subjects=@subjects, @controls=@controls, @sp=@sp, @cp=@cpNext, @subjCount=@subjCount, @ctrlCount=@ctrlCount
        IF @alt < @res BEGIN
            SET @res = @alt
        END
        ELSE BEGIN
            UPDATE #Assignments SET cId=@cId, sId=@sId, diff=@diff WHERE sRow=@sp
        END
    END
    INSERT INTO #MemoTable (sRow, cRow, best) VALUES (@sp, @cp, @res)
    RETURN @res
END

以下是调用此存储过程的方法:

-- The procedure uses a temporary table for memoization:
CREATE TABLE #MemoTable (sRow int, cRow int, best int)
-- The procedure returns a table with assignments:
CREATE TABLE #Assignments (sRow int, sId int, cId int, diff int)

DECLARE @subj as SubjTableType
INSERT INTO @SUBJ (row, id, match_field) SELECT ROW_NUMBER() OVER(ORDER BY match_field ASC)-1 AS row, id, match_field FROM subjects
DECLARE @ctrl as ControlTableType
INSERT INTO @ctrl (row, id, match_field) SELECT ROW_NUMBER() OVER(ORDER BY match_field ASC)-1 AS row, id, match_field FROM controls
DECLARE @subjCount int
SET @subjCount = (SELECT COUNT(1) FROM subjects)
DECLARE @ctrlCount int
SET @ctrlCount = (SELECT COUNT(1) FROM controls)
DECLARE @best int
EXEC @best = RecAssign
    @subjects=@subj
,   @controls=@ctrl
,   @sp=0
,   @cp=0
,   @subjCount=@subjCount
,   @ctrlCount=@ctrlCount
SELECT @best
SELECT sId, cId, diff FROM #Assignments

上面的调用假定subjectscontrols都已按位置过滤,并且在进行调用之前已将 的N副本subjects插入到表值参数(或 DB2 的临时表)中。

这是sqlfiddle 上的运行演示

于 2012-12-18T22:28:00.963 回答
2

我建议你看一下二部图中最大匹配的问题和算法。这个想法是建立一个图,其中左边的节点是你subjects的,右边的节点是你的controls(这就是为什么被称为二分)。构建图很简单,您创建一个source连接到所有主题的节点,并将所有控制节点连接到一个sink节点。subject然后,如果适用,您可以在 a和control节点之间创建一条边。然后你运行最大匹配算法,它会给你你正在寻找的东西,主题和控制的最大可能匹配。

请务必查看此 Boost BGL 示例如何操作,您只需构建图形并调用 BGL 函数edmonds_maximum_cardinality_matching

于 2012-12-13T14:56:46.093 回答