-1

我正在做一个项目,我将数据存储在 Sql Server 数据库中以进行数据挖掘。我正处于数据挖掘的第一步,即收集数据。所有数据都存储在当前存储在 SQL Server 2008 db 中。数据目前存储在几个不同的表中。该表每天增加大约 100,000 行。按照这个速度,该表将在大约一个月的时间内拥有超过百万条记录。

我还针对这些表运行某些选择语句以获取最新的实时统计信息。

我的问题是如何在不影响查询性能的情况下处理如此大的数据。我已经添加了一些索引来帮助选择语句。一种想法是在数据库达到一定数量的行后对其进行归档。这是未来最好的解决方案吗?

任何人都可以推荐什么是处理此类数据的最佳方法,请记住,如果可能的话,我想做一些数据挖掘。谢谢

更新:我没有进行足够的研究来决定我将使用什么工具进行数据挖掘。我的首要任务是收集相关信息。然后进行数据挖掘。我的问题是如何管理不断增长的表,以便对其运行选择不会导致性能问题。

4

1 回答 1

0

您将使用什么工具进行数据挖掘?如果您使用使用关系源的工具,那么您检查它提交到数据库的工作负载并在此基础上进行优化。因此,在您真正开始进行数据挖掘之前,您并不知道需要哪些索引。

如果您使用的是 SQL Server 数据挖掘工具,那么它们几乎运行 SQL Server 多维数据集(预先聚合数据)。因此,在这种情况下,您需要考虑哪种数据结构可以让您快速轻松地构建多维数据集。

该数据结构将是星型模式。但是要将其放入星型模式还需要额外的工作,并且在大多数情况下,您可以在规范化/OLAP 结构的基础上构建多维数据集。

因此,假设您使用的是 SQL Server 数据挖掘工具,下一步是构建一个包含您现在拥有的表的多维数据集,并查看您面临的挑战。

于 2013-10-10T01:04:58.503 回答