sql-server-2008 - 使用 Sql Server 进行数据挖掘

Question

我正在做一个项目，我将数据存储在 Sql Server 数据库中以进行数据挖掘。我正处于数据挖掘的第一步，即收集数据。所有数据都存储在当前存储在 SQL Server 2008 db 中。数据目前存储在几个不同的表中。该表每天增加大约 100,000 行。按照这个速度，该表将在大约一个月的时间内拥有超过百万条记录。

我还针对这些表运行某些选择语句以获取最新的实时统计信息。

我的问题是如何在不影响查询性能的情况下处理如此大的数据。我已经添加了一些索引来帮助选择语句。一种想法是在数据库达到一定数量的行后对其进行归档。这是未来最好的解决方案吗？

任何人都可以推荐什么是处理此类数据的最佳方法，请记住，如果可能的话，我想做一些数据挖掘。谢谢

更新：我没有进行足够的研究来决定我将使用什么工具进行数据挖掘。我的首要任务是收集相关信息。然后进行数据挖掘。我的问题是如何管理不断增长的表，以便对其运行选择不会导致性能问题。

score 0 · Accepted Answer

您将使用什么工具进行数据挖掘？如果您使用使用关系源的工具，那么您检查它提交到数据库的工作负载并在此基础上进行优化。因此，在您真正开始进行数据挖掘之前，您并不知道需要哪些索引。

如果您使用的是 SQL Server 数据挖掘工具，那么它们几乎运行 SQL Server 多维数据集（预先聚合数据）。因此，在这种情况下，您需要考虑哪种数据结构可以让您快速轻松地构建多维数据集。

该数据结构将是星型模式。但是要将其放入星型模式还需要额外的工作，并且在大多数情况下，您可以在规范化/OLAP 结构的基础上构建多维数据集。

因此，假设您使用的是 SQL Server 数据挖掘工具，下一步是构建一个包含您现在拥有的表的多维数据集，并查看您面临的挑战。

sql-server-2008 - 使用 Sql Server 进行数据挖掘

1 回答 1

Related

Reference