python - 聚类数百万个大型二元向量？

翻译自：https://stackoverflow.com/questions/67405214 2021-05-05T16:26:39.360

50 次

我想生成数百万个大型二进制向量（10_000 ... 100_000 位）。然后我想通过 OVERLAP (AND) 对它们进行聚类。之后，我想根据聚类对向量重新排序并保存以备后用。

Scipy 有一种聚类方法，但它可能不适用于如此大的数据集。Numpy 不会工作，因为我会内存不足。Vaex 可能会工作，但我必须自己编写聚类算法，它会在 python 中，所以它会很慢并且是只读的。另外我不确定生成数据时使用什么格式：csv，hdf5 ??

任何可能的解决方案？任何其他工具或技术？

如果可能的话，在生成它们时对它们进行聚类也是一种选择？我必须做一些聪明的索引技术！！！

0 回答 0