我目前正在开发一个程序,该程序能够将小文本(比如 250 个字符)与类似文本的集合(大约 1000-2000 个文本)进行比较。
目的是评估文本 A 是否与集合中的一个或多个文本相似,如果是,则集合中的文本必须可以通过 ID 检索。每个文本都有一个唯一的 ID。
我希望输出有两种方式:
选项 1: 文本 A 与文本 B 的相似度为 90%,文本 C 的相似度为 70%,依此类推。
选项 2: 文本 A 匹配具有最高相似性的文本 D
我在学校读过一些机器学习,但我不确定哪种算法最适合这个问题,或者我是否应该考虑使用 NLP(不熟悉该主题)。
有没有人建议使用什么算法或者我可以在哪里找到必要的文献来解决我的问题?