我对数据挖掘和统计很陌生。
我在 Visual Studio 中构建了一个数据挖掘模型。我正在使用 Microsoft 聚类算法,但遇到了一些问题。
我修改了一些默认参数,例如将最大输入参数设置为 350,将聚类方法设置为不可扩展的期望最大化(我有 80 000 行数据)。此外,我将集群计数设置为 0,以便算法选择最佳的。
问题来了。我正在使用 tempdb,每次我重新启动我的电脑时都会刷新它(我没有很多可用空间,所以 tempdb 是那个部门的一个不错的选择)。无论如何,当我重新加载相同的数据并构建挖掘结构时,我会得到完全不同的结果。有一次我得到了 10 个集群,然后是 13 个,然后是 9 个。我还尝试将集群计数强制为 13 以重现相同的集群,但它们也不同(集群本身的分布和大小不同)。
我的问题是为什么?EM不是确定性的。我了解大小和分布的微小变化,但每次刷新数据库时都会得到不同的结果。算法不应该给我几乎相同的结果,而不是非常不同的结果。难道我做错了什么?