使用 Spacy 在少数文本中查找相似性后,现在我正尝试在数百万个条目中(即时)查找相似文本。
我有一个包含数百万条文本的应用程序,如果他们要求,我想向用户展示类似的文本。
StackOverflow 之类的网站如何如此快速地找到类似问题?
我可以想象两种方法:
- 每次插入文本时,都会比较整个数据库并在两个问题之间建立链接(在具有两个外键的中间表中)
- 每次插入文本时,向量都会插入与该文本关联的字段中。每当用户要求相似的文本时,它都会“搜索”数据库中的相似文本。
我怀疑第二个选择。存储词向量是否足以快速搜索相似文本?