0

我正在尝试找到一种解决方案来查找最近或近似最近的文档邻居。

现在我使用 tfidf 作为文档的矢量表示。我的数据非常大(N ~ 百万)。如果我对 tfidf 使用 annoy,我的内存就会用完。我认为这是因为 tfidf 的高维度(我的词汇量约为 2000000 个中文单词)。

然后我用 pysparNN 试了一下,效果很好。然而,我担心的是随着我的数据大小的增长,pysparNN 会构建一个更大的索引,最终它可能不适合 RAM。这是一个问题,因为 pysparNN 不像 annoy 那样使用静态文件。

我想知道寻找文本数据最近邻居的好解决方案是什么。现在我正在研究使用 gensim 的烦恼指数和 doc2ve

4

1 回答 1

1

在文档嵌入方面,我认为 tfidf 并不是一个很好的解决方案。您可以尝试使用 FastText、LASER、gensim、BERT、ELMO 等提取更复杂的文本 (doc) 嵌入,然后使用 annoy 或 faiss 构建索引以检索相似性。

于 2019-03-27T14:12:52.363 回答