c++ - 具有巨大数组的 Kmeans

Question

我试图找到一个庞大数据集的 5000 个中心点。我的输入数组是 [5000000][512] 意味着很多 512 维的向量。C++ 对数组大小有限制，我似乎无法克服这一点。我想使用 opencv kmeans 函数。任何想法？？？

score 0 · Accepted Answer

同意楼上几位。真正的问题是，你真的有这么大内存的笔记本电脑/台式机吗？如果答案是肯定的，您可以简单地编写 C 程序来完成这项工作。否则，您可能必须找出分布式解决方案，例如 Mahout on Hadoop。另一种选择是，如果您的要求可以接受，您可能希望以某种方式从所有数据中抽取样本，并对样本进行聚类。

score 0 · Accepted Answer

我最终使用了小批量 kmeans，它将数据批量采样。另外，矩阵非常稀疏，所以添加稀疏矩阵表示就可以了。

c++ - 具有巨大数组的 Kmeans

2 回答 2

Related

Reference