0

我正在从 csv 文件中读取数据并将数据作为表变量发送到存储过程。从我到目前为止的测试来看,我能够在 3 分 30 秒内处理 300k 条记录。该文件可能包含多达数百万条记录。我想知道一次性将所有这些记录发送到存储过程是否是个好主意,或者我应该分批发送它们,比如 500k?我已将命令超时设置为 1800。

4

1 回答 1

1

使用 IEnumerable SqlDataRecord 的示例
它的工作方式类似于反向数据读取器

注意我排序。这是通过聚集索引。索引的碎片化绝对会降低加载速度。第一个实现使用插入值(未排序),在 12 小时的运行中,这个版本实际上快了 100 倍。我还在加载结束时禁用了 PK 和重新索引以外的索引。从长远来看,我得到大约 500 行/秒。你的样本是 1400 / 秒,太棒了。如果你开始看到退化,那么需要注意的事情。

public class DocFTSinXsCollection : List<DocFTSinX>, IEnumerable<SqlDataRecord>
{
    // used by TVP for fast insert
    private int sID;
    private IEnumerable<DocFTSinX> docFTSinXs;
    IEnumerator<SqlDataRecord> IEnumerable<SqlDataRecord>.GetEnumerator()
    {
        //todo fix the order in 3 to sID, wordID1, workID2
        var sdr = new SqlDataRecord(
        new SqlMetaData("wordID1", System.Data.SqlDbType.Int),
        new SqlMetaData("wordID2", System.Data.SqlDbType.Int),
        new SqlMetaData("sID", System.Data.SqlDbType.Int),
        new SqlMetaData("Delta", System.Data.SqlDbType.Int));
        foreach (DocFTSinX oh in docFTSinXs.OrderBy(x => x.Word1).ThenBy(x => x.Word2))
        {
            sdr.SetInt32(0, oh.Word1);
            sdr.SetInt32(1, oh.Word2);
            sdr.SetInt32(2, sID);
            sdr.SetInt32(3, (Int32)oh.Delta);
            yield return sdr;
        }
    }

    public DocFTSinXsCollection(int SID, IEnumerable<DocFTSinX> DocFTSinXs)
    {
        sID = SID;
        docFTSinXs = DocFTSinXs;
        //Debug.WriteLine("DocFTSinXsCollection DocFTSinXs " + DocFTSinXs.Count().ToString());
    }
}

其他要考虑的工具是 SQLBulkCopy .NET 类和 Drapper。

OP询问如何分批执行。

 while (true)
 {
     // if no more break;
     // fill list or datatable with next 100000
     // send list or datatable to db
 }
于 2012-09-17T22:45:06.630 回答