我正在尝试找到一种解决方案来查找最近或近似最近的文档邻居。
现在我使用 tfidf 作为文档的矢量表示。我的数据非常大(N ~ 百万)。如果我对 tfidf 使用 annoy,我的内存就会用完。我认为这是因为 tfidf 的高维度(我的词汇量约为 2000000 个中文单词)。
然后我用 pysparNN 试了一下,效果很好。然而,我担心的是随着我的数据大小的增长,pysparNN 会构建一个更大的索引,最终它可能不适合 RAM。这是一个问题,因为 pysparNN 不像 annoy 那样使用静态文件。
我想知道寻找文本数据最近邻居的好解决方案是什么。现在我正在研究使用 gensim 的烦恼指数和 doc2ve