Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我试图找到一个庞大数据集的 5000 个中心点。我的输入数组是 [5000000][512] 意味着很多 512 维的向量。C++ 对数组大小有限制,我似乎无法克服这一点。我想使用 opencv kmeans 函数。任何想法???
同意楼上几位。真正的问题是,你真的有这么大内存的笔记本电脑/台式机吗?如果答案是肯定的,您可以简单地编写 C 程序来完成这项工作。否则,您可能必须找出分布式解决方案,例如 Mahout on Hadoop。另一种选择是,如果您的要求可以接受,您可能希望以某种方式从所有数据中抽取样本,并对样本进行聚类。
我最终使用了小批量 kmeans,它将数据批量采样。另外,矩阵非常稀疏,所以添加稀疏矩阵表示就可以了。