我想通过 q-gram 距离或简单的“袋子距离”或 Python 中的 Levenshtein 距离来聚集约 100,000 个短字符串。我打算填写一个距离矩阵(100,000 选择 2 个比较),然后使用pyCluster进行层次聚类。但我什至在起步之前就遇到了一些记忆问题。例如,距离矩阵对于 numpy 来说太大了。
aa = numpy.zeros((100000, 100000))
ValueError: array is too big.
这似乎是一件合理的事情吗?还是我注定要在这项任务中出现记忆问题?谢谢你的帮助。