我有大量数据(文本),已转换为稀疏术语文档矩阵(我scipy.sparse.csr.csr_matrix
用来存储稀疏矩阵)。我想为每个文档找到前 n 个最近邻匹配项。我希望库中的NearestNeighbor
例程(准确地说)可以解决我的问题,但是使用空间分区数据结构的有效算法(例如稀疏矩阵)或不适用于稀疏矩阵。只有蛮力算法适用于稀疏矩阵(这在我的情况下是不可行的,因为我正在处理大型语料库)。Python scikit-learn
sklearn.neighbors.NearestNeighbor
KD trees
Ball trees
是否有任何有效实现最近邻搜索稀疏矩阵(在 Python 或任何其他语言中)?
谢谢。