我正在尝试在 python 中实现具有 200k+ 数据点的 1000 维数据的算法。我想使用 numpy、scipy、sklearn、networkx 和其他有用的库。我想执行诸如所有点之间的成对距离之类的操作,并对所有点进行聚类。我已经实现了以合理复杂性执行我想要的工作的算法,但是当我尝试将它们扩展到我的所有数据时,我的 RAM 用完了。当然,我愿意,在 200k+ 数据上创建成对距离矩阵会占用大量内存。
问题来了:我真的很想在 RAM 很少的蹩脚计算机上执行此操作。
有没有一种可行的方法让我在没有低 RAM 限制的情况下完成这项工作?这将花费更长的时间真的不是问题,只要时间要求不去无穷大!
我希望能够让我的算法发挥作用,然后一到五个小时后回来,并且不会因为 RAM 用完而卡住!我想在 python 中实现它,并且能够使用 numpy、scipy、sklearn 和 networkx 库。我希望能够计算到我所有点的成对距离等
这可行吗?我该怎么做,我可以开始阅读什么?