我正在从 csv 文件中读取数据并将数据作为表变量发送到存储过程。从我到目前为止的测试来看,我能够在 3 分 30 秒内处理 300k 条记录。该文件可能包含多达数百万条记录。我想知道一次性将所有这些记录发送到存储过程是否是个好主意,或者我应该分批发送它们,比如 500k?我已将命令超时设置为 1800。
问问题
1139 次
1 回答
1
使用 IEnumerable SqlDataRecord 的示例
它的工作方式类似于反向数据读取器
注意我排序。这是通过聚集索引。索引的碎片化绝对会降低加载速度。第一个实现使用插入值(未排序),在 12 小时的运行中,这个版本实际上快了 100 倍。我还在加载结束时禁用了 PK 和重新索引以外的索引。从长远来看,我得到大约 500 行/秒。你的样本是 1400 / 秒,太棒了。如果你开始看到退化,那么需要注意的事情。
public class DocFTSinXsCollection : List<DocFTSinX>, IEnumerable<SqlDataRecord>
{
// used by TVP for fast insert
private int sID;
private IEnumerable<DocFTSinX> docFTSinXs;
IEnumerator<SqlDataRecord> IEnumerable<SqlDataRecord>.GetEnumerator()
{
//todo fix the order in 3 to sID, wordID1, workID2
var sdr = new SqlDataRecord(
new SqlMetaData("wordID1", System.Data.SqlDbType.Int),
new SqlMetaData("wordID2", System.Data.SqlDbType.Int),
new SqlMetaData("sID", System.Data.SqlDbType.Int),
new SqlMetaData("Delta", System.Data.SqlDbType.Int));
foreach (DocFTSinX oh in docFTSinXs.OrderBy(x => x.Word1).ThenBy(x => x.Word2))
{
sdr.SetInt32(0, oh.Word1);
sdr.SetInt32(1, oh.Word2);
sdr.SetInt32(2, sID);
sdr.SetInt32(3, (Int32)oh.Delta);
yield return sdr;
}
}
public DocFTSinXsCollection(int SID, IEnumerable<DocFTSinX> DocFTSinXs)
{
sID = SID;
docFTSinXs = DocFTSinXs;
//Debug.WriteLine("DocFTSinXsCollection DocFTSinXs " + DocFTSinXs.Count().ToString());
}
}
其他要考虑的工具是 SQLBulkCopy .NET 类和 Drapper。
OP询问如何分批执行。
while (true)
{
// if no more break;
// fill list or datatable with next 100000
// send list or datatable to db
}
于 2012-09-17T22:45:06.630 回答