-2

我希望将一些非常低维(2 或 3)的数据聚集成少量的集群(< 25)。我拥有的实例数量非常大(大约 100M+ )。我可以从数据库中流式传输这些数据(并可能在每次传递时重新流式传输)——但要避免将整个集合放入内存。[如果我必须把它带入内存,我希望它尽可能地提高内存效率]

我正在寻找满足这些要求的算法(最好是 Javascript 实现)。

谢谢!

4

1 回答 1

1

看看MacQueens k-means算法,它适用于流数据,并且实现起来很简单。

哦,它从 60 年代左右就已经存在了。

但也请注意,您不妨只在数据集的代表性样本上运行它。最有可能的是,结果不会有很大不同。交易量不会改变统计数据,例如意味着很多。

于 2013-09-02T22:02:51.710 回答