我正在一个 256 个字符长的字符串和一个由 9000 个条目组成的语料库之间进行相似性搜索,每个条目大约 1000 个单词。
我使用过LocalitySensitiveHashing
,请参阅https://github.com/Jmkernes/Locality-sensitive-hashing-tutorial/blob/main/LocalitySensitiveHashing.ipynb。它创建了我过滤的对。
这里的一个问题是documents
每个条目都包含大约 1000 个单词,这使得搜索效率低下,因为它们都必须保留在内存中。一般来说,它非常慢。
目标是快速输出与256个字符长字符串内容相似度最大的语料库的索引。
我的想法是:条目需要简化并序列化为文件以便快速恢复。
您推荐哪种论文或实施?