1

我试图找到一个庞大数据集的 5000 个中心点。我的输入数组是 [5000000][512] 意味着很多 512 维的向量。C++ 对数组大小有限制,我似乎无法克服这一点。我想使用 opencv kmeans 函数。任何想法???

4

2 回答 2

0

同意楼上几位。真正的问题是,你真的有这么大内存的笔记本电脑/台式机吗?如果答案是肯定的,您可以简单地编写 C 程序来完成这项工作。否则,您可能必须找出分布式解决方案,例如 Mahout on Hadoop。另一种选择是,如果您的要求可以接受,您可能希望以某种方式从所有数据中抽取样本,并对样本进行聚类。

于 2013-08-14T03:39:21.743 回答
0

我最终使用了小批量 kmeans,它将数据批量采样。另外,矩阵非常稀疏,所以添加稀疏矩阵表示就可以了。

于 2013-08-21T14:45:28.757 回答