我正在做一个项目,我将数据存储在 Sql Server 数据库中以进行数据挖掘。我正处于数据挖掘的第一步,即收集数据。所有数据都存储在当前存储在 SQL Server 2008 db 中。数据目前存储在几个不同的表中。该表每天增加大约 100,000 行。按照这个速度,该表将在大约一个月的时间内拥有超过百万条记录。
我还针对这些表运行某些选择语句以获取最新的实时统计信息。
我的问题是如何在不影响查询性能的情况下处理如此大的数据。我已经添加了一些索引来帮助选择语句。一种想法是在数据库达到一定数量的行后对其进行归档。这是未来最好的解决方案吗?
任何人都可以推荐什么是处理此类数据的最佳方法,请记住,如果可能的话,我想做一些数据挖掘。谢谢
更新:我没有进行足够的研究来决定我将使用什么工具进行数据挖掘。我的首要任务是收集相关信息。然后进行数据挖掘。我的问题是如何管理不断增长的表,以便对其运行选择不会导致性能问题。