python - 大型语料库的高效字符串相似性搜索

问问题 2022-03-01T03:34:54.933

14 次

1

我正在一个 256 个字符长的字符串和一个由 9000 个条目组成的语料库之间进行相似性搜索，每个条目大约 1000 个单词。

我使用过LocalitySensitiveHashing，请参阅https://github.com/Jmkernes/Locality-sensitive-hashing-tutorial/blob/main/LocalitySensitiveHashing.ipynb。它创建了我过滤的对。

这里的一个问题是documents每个条目都包含大约 1000 个单词，这使得搜索效率低下，因为它们都必须保留在内存中。一般来说，它非常慢。

目标是快速输出与256个字符长字符串内容相似度最大的语料库的索引。

我的想法是：条目需要简化并序列化为文件以便快速恢复。

您推荐哪种论文或实施？

0 回答 0