1

数据库引擎应该完成所有工作,还是应该由客户端应用程序负责检查唯一性?

我正在用 C# 开发一个应用程序来扫描驱动器并将文件信息存储在 SQL Server CE 数据库中,我想知道哪种方法可以确保唯一条目是“最佳”的。到目前为止,我尝试了以下三种方法,并没有看到任何性能差异:

  1. 维护一个集合对象
  2. 检查数据库中是否存在
  3. 依赖于数据库中的唯一索引

我的三种方法的伪代码。实际代码将文件分解为多个部分,并使用多个表来存储路径、扩展名、卷/服务器和其他信息,以及索引记录以查找数据。

collectionObj //initialize with existing records from database
While (filesToAdd.Count > 0 )
{
    file = filesToAdd.Dequeue();
    If(!collectionObj.Contains( file.Name ))
    {
        Insert file.Name into database
        collectionObj.Add(file.Name)
      }
}  

使用方法 1,我认为在内存中搜索对象会更快,但由于 SQL Server CE 数据库也在内存中,所以我不太确定这样做的好处。

While (filesToAdd.Count > 0 )
{
    file = filesToAdd.Dequeue();

    if(  ( select count(*) from database where filename = file.Name) == 0 )  
    {
       Insert file.Name into database
    }
}

方法 2 不使用任何额外的对象/内存,但会大量查询数据库以查找重复项。使用 SQL Server CE 网络流量不是问题,但过多的查询必须对性能产生影响。

While (filesToAdd.Count > 0 )
{
        file = filesToAdd.Dequeue();
        try
       {
          Insert file.Name into database
       }catch(Duplicate index violation exception)
       {
          //do nothing 
       }
}

我倾向于方法 3,主要是因为它简化了代码,但它似乎懒得成为最佳实践。同样在重复插入时,数据库会抛出错误,程序也是如此。这似乎会影响性能。

鉴于所提供的信息,当您知道会有很多重复时,将大量信息添加到数据库中的“最佳”方式是什么?如果数据主要是唯一的或主要是重复的,答案是否会改变?如果您有更好的方法,那么我会很高兴听到它的想法。我的问题是关于 SQL Server CE 的,它没有 SQL Server 的全部功能,请在提供建议时牢记这一点。

4

4 回答 4

1

答案是 。. . 在数据库中进行。

唯一性要求是数据的要求。应该使用数据库来强制执行这些要求。

请记住,确保唯一的条目需要对insert和进行测试update。而且,您希望将唯一性作为数据完整性的一部分。因此,无论更新或插入是如何完成的(通过您的应用程序、手动、通过触发器或其他方式),您都希望检查发生。保证它始终完成的唯一方法是在数据库中进行检查。

这个论点超越了性能。但是,假设唯一索引适合内存,则数据库应该非常有效地进行性能检查。在某些情况下,性能非常重要,以至于会在应用程序中检查约束。这些将很少见。而且,我可能会质疑为什么将数据库用于此类应用程序的数据存储。

于 2013-09-04T21:36:33.543 回答
0

正确答案和往常一样,这取决于。让数据库这样做的“懒惰”解决方案最终是正确的答案。但是,如果您可以在客户端过滤掉重复项,并且过滤掉的时间和精力足以避免让数据库执行所有过滤,那么在客户端过滤是有意义的。您仍将在数据库上强制执行唯一性,但您可以通过过滤掉客户端上的一些或大部分重复项来减轻其处理的一些负担。如果我从实际的应用程序经验中知道这值得付出努力,我可能只会走这条路。

于 2013-09-04T21:38:22.997 回答
0

为什么懒惰的好方法是坏方法?

如果您打算使用数据库来存储数据并且您想确保没有重复的条目,那么当然应该对您的行使用 UNIQUE 约束。它不仅可以帮助您保持无重复的数据存储,而且还可以为您提供识别每一行的好方法。

如果有重复条目,数据库引擎会在插入数据库时​​注意到这一点,并抛出您可以轻松捕获的错误/异常。

于 2013-09-04T21:32:55.727 回答
0

显然,您希望您的数据库处理唯一约束,但听起来您希望避免尝试插入重复记录时引发的异常。通常,我建议在您的 SQL INSERT 语句中使用 IF NOT EXISTS,但您不能使用 SQL Server Compact 执行此操作。

另一个技巧可能是先尝试更新,如果没有行受到影响,您知道该记录不存在,您可以安全地插入它。这是一些额外的工作,但如果您期望有很多重复,它可能仍然比捕获所有这些异常更有效。

在尝试将已知重复项放入数据库之前尝试过滤掉它们也可能是明智的。也许考虑使用 HashSet 来跟踪您在该会话期间已插入的唯一 ID。如果一个值在您的 HashSet 中,您知道您可以跳过它并为自己保存对数据库的调用。

于 2013-09-04T22:39:01.887 回答