0

我想生成数百万个大型二进制向量(10_000 ... 100_000 位)。然后我想通过 OVERLAP (AND) 对它们进行聚类。之后,我想根据聚类对向量重新排序并保存以备后用。

Scipy 有一种聚类方法,但它可能不适用于如此大的数据集。Numpy 不会工作,因为我会内存不足。Vaex 可能会工作,但我必须自己编写聚类算法,它会在 python 中,所以它会很慢并且是只读的。另外我不确定生成数据时使用什么格式:csv,hdf5 ??

任何可能的解决方案?任何其他工具或技术?

如果可能的话,在生成它们时对它们进行聚类也是一种选择?我必须做一些聪明的索引技术!!!

4

0 回答 0