1

我正在一个 256 个字符长的字符串和一个由 9000 个条目组成的语料库之间进行相似性搜索,每个条目大约 1000 个单词。

我使用过LocalitySensitiveHashing,请参阅https://github.com/Jmkernes/Locality-sensitive-hashing-tutorial/blob/main/LocalitySensitiveHashing.ipynb。它创建了我过滤的对。

这里的一个问题是documents每个条目都包含大约 1000 个单词,这使得搜索效率低下,因为它们都必须保留在内存中。一般来说,它非常慢。

目标是快速输出与256个字符长字符串内容相似度最大的语料库的索引。

我的想法是:条目需要简化并序列化为文件以便快速恢复。

您推荐哪种论文或实施?

4

0 回答 0