f# - 成对序列处理以比较数据库表

Question

考虑以下用例：
我想并行遍历 2 个 db 表，并在任一表中查找差异和差距/缺失记录。假设1）table的pk是一个Int ID字段；2）表格按ID顺序读取；3) 任一表中可能缺少记录（具有相应的序列间隙）。

我想在每个数据库上一次通过 - 使用惰性读取。（我的这个程序的初始版本使用序列对象和数据阅读器 - 不幸的是，对每个数据库进行了多次传递）。

我考虑过使用成对序列处理并在迭代中使用 Seq.skip 来尝试保持表处理同步。但是显然这非常慢，因为我 Seq.skip 的开销很高（在引擎盖下创建新序列），所以这可能是一个大表（比如 200k 记录）的问题。

我想这是一种常见的设计模式（比较来自不同来源的并发数据流）并且对类似项目的反馈/评论/链接感兴趣。

有人愿意发表评论吗？

score 1 · Accepted Answer

当您使用序列时，任何惰性函数都会在序列上增加一些开销。在同一序列上调用 Seq.skip 数千次显然会很慢。

您可以一次使用Seq.zip或Seq.map2处理两个序列：

> Seq.map2 (+) [1..3] [10..12];;
val it : seq<int> = seq [11; 13; 15]

如果 Seq 模块不够用，您可能需要编写自己的函数。我不确定我是否理解您尝试执行的操作，但此示例函数可能会对您有所帮助：

let fct (s1: seq<_>) (s2: seq<_>) =
    use e1 = s1.GetEnumerator()
    use e2 = s2.GetEnumerator()
    let rec walk () =

        // do some stuff with the element of both sequences
        printfn "%d %d" e1.Current e2.Current

        if cond1 then // move in both sequences
            if e1.MoveNext() && e2.MoveNext() then walk ()
            else () // end of a sequence

        elif cond2 then // move to the next element of s1
            if e1.MoveNext() then walk()
            else () // end of s1

        elif cond3 then // move to the next element of s2
            if e2.MoveNext() then walk ()
            else () // end of s2

    // we need at least one element in each sequence
    if e1.MoveNext() && e2.MoveNext() then walk()

编辑：

前一个函数旨在扩展 Seq 模块的功能，您可能希望将其设为高阶函数。正如 ildjarn 所说，使用 LazyList 可以使代码更简洁：

let rec merge (l1: LazyList<_>) (l2: LazyList<_>) =
    match l1, l2 with
    | LazyList.Cons(h1, t1), LazyList.Cons(h2, t2) ->
        if h1 <= h2 then LazyList.cons h1 (merge t1 l2)
        else LazyList.cons h2 (merge l1 t2)
    | LazyList.Nil, l2 -> l2
    | _ -> l1

merge (LazyList.ofSeq [1; 4; 5; 7]) (LazyList.ofSeq [1; 2; 3; 6; 8; 9])

但是我仍然认为您应该将数据的迭代与处理分开。编写一个高阶函数进行迭代是一个好主意（最后，如果迭代器函数代码使用可变枚举器，这并不烦人）。

score 1 · Accepted Answer

这是我（完全未经测试）的看法，对两张桌子都做了一次：

let findDifferences readerA readerB =
    let idsA, idsB =
        let getIds (reader:System.Data.Common.DbDataReader) =
            reader |> LazyList.unfold (fun reader ->
                if reader.Read ()
                then Some (reader.GetInt32 0, reader)
                else None)
        getIds readerA, getIds readerB

    let onlyInA, onlyInB = ResizeArray<_>(), ResizeArray<_>()
    let rec impl a b =
        let inline handleOnlyInA idA as' = onlyInA.Add idA; impl as' b
        let inline handleOnlyInB idB bs' = onlyInB.Add idB; impl a bs'
        match a, b with
        | LazyList.Cons (idA, as'), LazyList.Cons (idB, bs') ->
                if   idA < idB then handleOnlyInA idA as'
                elif idA > idB then handleOnlyInB idB bs'
                else impl as' bs'
        | LazyList.Nil, LazyList.Nil  -> () // termination condition
        | LazyList.Cons (idA, as'), _ -> handleOnlyInA idA as'
        | _, LazyList.Cons (idB, bs') -> handleOnlyInB idB bs'
    impl idsA idsB
    onlyInA.ToArray (), onlyInB.ToArray ()

这需要两个DataReaders（每个表一个）并返回两个int[]s，它们指示仅存在于各自表中的 ID。该代码假定 ID 字段是 typeint并且位于序号 index 处0。

另请注意，此代码使用LazyListF # PowerPack，因此如果您还没有它，则需要获取它。如果您的目标是 .NET 4.0，那么我强烈建议您获取我在这里构建和托管的 .NET 4.0 二进制文件，因为来自 F# PowerPack 站点的二进制文件仅针对 .NET 2.0，有时与 VS2010 SP1 不兼容（有关更多信息，请参阅此线程：F# Powerpack 出现问题。未找到方法错误）。

f# - 成对序列处理以比较数据库表

2 回答 2

Related

Reference