预处理后我有一个包含 590000 条记录的数据集,我想从中找到集群,它包含字符串数据(现在假设我在数据集中只有一列具有 590000 个唯一值)。另外我正在使用自定义的距离度量,需要计算大小为 590000*590000 的距离矩阵。使用一些分区逻辑,我创建了距离矩阵,但由于内存限制,无法将这些分区合并为一个大距离矩阵。有没有人有任何想法来解决它?我为此选择了 DBSCAN。有没有办法使用深度学习方法?任何其他想法
问问题
40 次