2

我正在构建将数据库与 3 个表(Worker、Task、TaskStep)一起使用的程序,并且我有一个方法可以获取日期并为任务的特定工作人员构建报告以及特定日期的步骤。

数据库结构如下:

MySQL 5.2

Worker表列:

workerID(VARCHAR(45)),
name(VARCHAR(45)),
age(int),
...

Tasks表列:

TaskID(VARCHAR(45)),
description(VARCHAR(45)),
date(DATE),
...

TaskSteps表列:

TaskStepID(VARCHAR(45)),
description(VARCHAR(45)),
date(DATE),
...

任何表都没有索引

问题是它非常非常慢!!(约 20 秒)

这是代码:

using WorkerDailyReport = Dictionary<task, IEnumerable<taskStep>>;

private void Buildreport(DateTime date)
{
    var report = new WorkerDailyReport();    

    // Load from DB
    var sw = new Stopwatch();
    sw.Start();

    var startOfDay  = date.Date;
    var endOfDay    = startOfDay.AddDays(1);
    var db          = new WorkEntities();

    const string    workerID   = "80900855";

    IEnumerable<task> _tasks = db.task
                    .Where(ta =>    ta.date     >= startOfDay   &&
                                    ta.date     <  endOfDay     &&
                                    ta.workerID == workerID)
                    .ToList();

    sw.Stop();
    Console.WriteLine("Load From DB time - " + sw.Elapsed + 
                      ", Count - "           + _tasks.Count());   

    // Build the report
    sw.Restart();

    foreach (var t in _tasks)
    {
        var ts = db.taskStep.Where(s => s.taskID == task.taskID);

        report.Add(t, ts);
    }

    sw.Stop();
    Console.WriteLine("Build report time - " + sw.Elapsed);

    // Do somthing with the report
    foreach (var t in report)
    {
        sw.Restart();

        foreach (var subNode in t.Value)
        {
            // Do somthing..
        }

        Console.WriteLine("Do somthing time - " + sw.Elapsed + 
                          ", Count - " + t.Value.Count());
    }
}

如您所见,我将秒表放在每个部分中以检查需要这么长时间,结果如下:

1)

如果我按上述方式运行代码:

安慰:

Load From DB time - 00:00:00.0013774, Count - 577

Build report time - 00:00:03.6305722

Do somthing time - 00:00:07.7573754, Count - 21

Do somthing time - 00:00:08.2811928, Count - 11

Do somthing time - 00:00:07.8715531, Count - 14

Do somthing time - 00:00:08.0430597, Count - 0

Do somthing time - 00:00:07.7867790, Count - 9

Do somthing time - 00:00:07.3485209, Count - 39

.........

内部 foreach 运行大约需要 7-9 !秒运行不超过 40 条记录。

2)

如果我只改变一件事,当我从数据库加载工作任务时,在第一个查询之后添加 .ToList() 它会改变一切。

安慰:

Load From DB time - 00:00:04.3568445, Count - 577

Build report time - 00:00:00.0018535

Do somthing time - 00:00:00.0191099, Count - 21

Do somthing time - 00:00:00.0144895, Count - 11

Do somthing time - 00:00:00.0150208, Count - 14

Do somthing time - 00:00:00.0179021, Count - 0

Do somthing time - 00:00:00.0151372, Count - 9

Do somthing time - 00:00:00.0155703, Count - 39

.........

现在从数据库加载需要更多时间,4 秒以上。但是内置报告时间约为~1ms,每个内部foreach需要~10ms

第一种方法是不可能的(577 * ~8 秒),第二个选项也很慢,我看不到 y。

知道这里发生了什么吗?

1)为什么ToList()这么慢?

2)为什么没有ToList(),内部foreach和构建报告会变慢?

我怎样才能让它更快?

谢谢。

4

3 回答 3

2

当您不使用 .ToList() 时,C# 不会从数据库中加载数据,直到您第一次需要从数据库中获取数据,这是因为实体框架中的延迟加载。

并且在内部 for-each 循环的每一步中,您的程序都会从​​数据库请求查询,这太慢了。

但是,当您使用 .ToList() 时,您会立即运行查询并首先获取所有记录,这很慢。然后,在内部 for-each 循环中,您的程序将所有记录都保存在内存中。

对不起,我的英语口语很弱 :D

于 2012-12-25T16:52:22.457 回答
0

To improve performance, you should use one query to get data from all table:

var _joinedTasks = db.task.Where(ta =>    ta.date     >= startOfDay   &&
                                    ta.date     <  endOfDay     &&
                                    ta.workerID == workerID)
                    .Join(db.taskStep, t => t.taskID, ts=>ts.taskID, (t, ts) => new {t, ts})
                    .GroupBy(g => g.t, v=>v.ts).AsEnumerable();

Then you can add it to dictionary:

var report = _joinedTasks.ToDictionary(g=>g.Key);

And use this report as you wish.

于 2012-12-26T05:56:33.367 回答
0

LINQToList()总是立即评估序列 - 在您的情况下,对数据库进行 SQL 查询。

在您得到的第一个实例中Load From DB time - 00:00:00.0013774, Count - 577- 这很快,因为您没有运行 SQL 查询。但是,查询稍后运行 - 这就是您得到Build report time - 00:00:03.6305722)的原因。

在第二个实例ToList()中,立即添加对查询的强制评估(执行 SQL),这就是您得到以下时间的原因:

  • Load From DB time - 00:00:04.3568445, Count - 577- 对数据库的 SQL 查询(
  • Build report time - 00:00:00.0018535- 对内存中的数据进行操作(快速

有趣的是,您返回577个项目的查询耗时超过 3 秒。这可能是由于其中一张表上缺少索引而发生的。

请记住,如果您的表上没有索引,则数据库系统需要执行全表扫描以找出所有满足以下条件的项目:

.Where(ta => ta.date >= startOfDay &&
             ta.date < endOfDay &&
             ta.workerID == workerID)

随着表中项目数量的增加Tasks,您的查询将花费越来越长的时间

所以我强烈建议在Tasks.dateTasks.workerId列上创建索引。这应该会缩短初始查询时间(假设您的数据库连接速度很快,即您没有连接到部署在海洋上的数据库)。

顺便说一句,不要在所有表列上创建索引(仅在您在查询条件中使用的列上)。这可能会减慢您的插入操作并增加数据库大小。

Do somthing time ...不幸的是,由于您没有提供代码,因此我无法提供更多建议。但是,如果您采用相同的建议,我相信您也会得到一些改进。

于 2012-12-26T01:57:53.697 回答