0
  • 我想对大数据集(超过 1M 条记录)进行聚类。
  • 我想为这个聚类任务使用dbscanorhdbscan算法。

当我尝试使用其中一种算法时,我遇到了内存错误。

  • 有没有办法将大数据集分成几部分?(使用 for 循环并每 1000 条记录重新调整一次)?
  • 如果没有,是否有更好的方法来集群大数据集,而不升级机器内存?
4

1 回答 1

1

如果你的数据集中的特征数量不是太多(20-25以下),可以考虑使用BIRCH。这是一种可用于大型数据集的迭代方法。在每次迭代中,它只使用少量数据样本构建一棵树,并将每个实例放入集群中。

于 2021-04-15T09:05:00.110 回答