1

我的控制台应用程序正在从文本文件中读取大量数据,这些数据将保存到数据库中。为此,我将数据存储到 DataTable 中,并且我想每 5 分钟将此 DataTable 转储到 DB 中(如果我想一次转储整个数据,那么我必须用整个数据集填充 DataTable,在那种情况下,我得到了 OutOfMemoryException)。

public void ProcessData()
{
    string[] files=File.ReadAllLines(path)
    foreach(var item in files)
    {
        DataRow dtRow= dataTable.NewRow();
        dtRow["ID"]= .... //some code here;
        dtRow["Name"]= .... //some code here;
        dtRow["Age"]= .... //some code here;

        var timer = new Timer(v => SaveData(), null, 0, 5*60*1000);
    }
}

public void SaveData(string tableName, DataTable dataTable )
{
    //Some code Here
    //After dumping data to DB, clear DataTable
    dataTable.Rows.Clear();
}

我在这里想要的是,代码将继续填充 DataTable,并且每 5 分钟它会调用 SaveData() 方法。这将继续运行,直到处理完所有文件。

但是,我已经看到,当调用 SaveData() 方法时,它会执行 4-5 次。有时,它每 5 分钟调用一次机器人。

我不知道如何在这里进行。如何解决这个问题?可以在这里使用任何其他方法吗?任何帮助表示赞赏。

4

3 回答 3

4

是否必须使用 ReadAllLines 完全读取每个文本文件,这将消耗大量内存。为什么不从文件中读取 x 行,保存到数据库,然后继续直到到达文件末尾?

于 2013-03-17T14:20:18.230 回答
3

您最大的问题是Timer在 foreach 中实例化新实例。Timer每次 foreach 调用中的新对象意味着多个线程SaveData同时调用,这意味着dataTable在清除行之前可能(并且很可能)同时处理并保存到数据库中多次,从而将大部分文件复制到数据库中。

在我按要求提供问题的解决方案之前,我想指出以 5 分钟间隔保存数据具有明显的代码气味。正如已经指出的那样,我会建议一些基于某些数据大小而不是任意时间间隔来加载和保存数据的方法。也就是说,我将继续解决您的问题,假设您必须进行 5 分钟的间隔保存是有原因的。

首先,我们需要Timer正确设置我们的,你会注意到我在 foreach 循环之外创建的。 Timer继续按间隔运行,而不仅仅是等待和执行一次。

其次,我们必须采取措施确保中间数据存储上的线程安全数据完整性(在您的情况下,您使用DataTable,但我使用的List是自定义类,因为DataTable对于我们想要做的事情来说成本太高)。您会注意到我通过在更新我们的List.

数据处理类的更新:

private bool isComplete = false;
private object DataStoreLock = new object();
private List<MyCustomClass> myDataStore;
private Timer myTimer;

public void ProcessData()
{
    myTimer = new Timer(SaveData, null, TimeSpan.Zero, TimeSpan.FromMinutes(5.0));
    foreach (var item in File.ReadLines(path))
    {
        var myData = new MyCustomClass()
            {
                ID = 0, // Some code here
                Name = "Some code here",
                Age = 0 // Some code here
            };
        lock (DataStoreLock)
        {
            myDataStore.Add(myData);
        }
    }
    isComplete = true;
}

public void SaveData(object arg)
{
    // Our first step is to check if timed work is done.
    if (isComplete)
    {
        myTimer.Dispose();
        myTimer = null;
    }
    // Our next step is to create a local instance of the data store to work on, which
    // allows ProcessData to continue populating while our DB actions are being performed.
    List<MyCustomClass> lDataStore;
    lock (DataStoreLock)
    {
        lDataStore = myDataStore;
        myDataStore = new List<MyCustomClass>();
    }
    //Some code DB code here.
}

编辑:我已将枚举更改为通过ReadLines而不是ReadAllLines. ReadLines阅读MSDN 上方法下的备注。ReadAllLines将是一个阻塞调用,whileReadLines将允许在读取文件时处理枚举。我无法想象foreach如果文件已经全部读入内存,您将运行超过 5 分钟的场景。

于 2013-03-17T15:23:43.320 回答
2

以下是有关如何实现代码的建议以及其他答案的建议:

    public void ProcessData()
    {
        int i = 1;
        foreach(var item in File.ReadLines(path)) //This line has been edited
        {
            DataRow dtRow= dataTable.NewRow();
            dtRow["ID"]= .... //some code here;
            dtRow["Name"]= .... //some code here;
            dtRow["Age"]= .... //some code here;
            if (i%25 == 0) //you can change the 25 here to something else
            {
                SaveData(/* table name */, /* dataTable */);
            }
            i++;
        }
        SaveData(/* table name */, /* dataTable */);
    }

    public void SaveData(string tableName, DataTable dataTable )
    {
        //Some code Here
        //After dumping data to DB, clear DataTable
        dataTable.Rows.Clear();
    }
于 2013-03-17T15:05:14.183 回答