c# - 在 Sql Server 或 .Net 中执行数据分析？

Question

我有一些需要执行的数据分析。平均而言，它将涉及 50K-150K 行之间的某处。从这些行中，我需要根据五个不同的标准提取 Sum(X) 和 Count(X) 的总和。有两种方法：

编写 10 个不同的查询，每个查询都旨在使用 Sum() 或 Count() 聚合列 X 中的数据。运行每一个并使用 SqlCommand.ExecuteScalar() 检索结果。
创建一个自定义对象以包含评估不同条件所需的所有不同参数。使用 SqlCommand.ExecuteDataReader() 运行一个查询，该查询将返回构成包含所有不同条件子集的超集所需的所有数据。将 DataReader 中的每一行读入一个新对象，并将每一行添加到一个 List 集合中。检索所有数据，使用 Linq-to-Object 根据不同条件确定所需的不同 Sum() 和 Count() 值。

我知道我可以尝试每一个，看看哪个最快，但我对社区关于哪个可能更快的建议感兴趣。假设 Sql Server 和 Web Server 各自运行在自己的机器上，每个都有足够的内存。

现在我倾向于选项 1。尽管对 DB 有更多查询，但 DB 本身将完成所有聚合工作，并且很少有数据会在 Sql Server 和 Web Server 之间传递。使用选项 2，只有一个查询，但它会将大量数据传递给 .Net，然后 .Net 将不得不完成与聚合函数有关的所有繁重工作（尽管我没有有任何依据，我怀疑 Sql Server 在运行这些类型的大聚合函数时效率更高）。

关于走哪条路（或我错过的第三种选择）的任何想法？

score 1 · Accepted Answer

你知道，我会选择选项 1。50-150k 行并不是真正的多行 IMO，特别是如果你没有太多列。

一旦你开始谈论数百万行，我就会开始考虑优化。

另一件事：与数据库一样，确保您的查询正确命中索引。这比你的两个想法之间的差异重要得多。

score 1 · Accepted Answer

数据库通常是分析此类数据的最佳选择，我会选择#1。

但是，我还会考虑第三种选择，在其中创建一个传递给 SQL 的查询（而不是十个）。这可能涉及将 CASE 语句放入聚合函数中，以便您可以在一次数据传递中完成所有工作。

考虑做 PIVOT 的旧方法：

SELECT 
   SUM(CASE WHEN ConditionX = 1 THEN SomeField END) AS SUM1
   SUM(CASE WHEN ConditionX = 2 THEN SomeField END) AS SUM2
FROM SourceData
;

c# - 在 Sql Server 或 .Net 中执行数据分析？

2 回答 2

Related

Reference