是否有任何用于计算一对句子的语义相似度分数的库?
我知道 WordNet 的语义数据库,以及如何生成 2 个单词的分数,但我正在寻找能够对整个句子和输出执行所有预处理任务(如端口词干、停用词删除等)的库两个句子相关程度的分数。
我发现了一项使用 .NET 框架编写的工作正在进行中,该框架使用一系列预处理步骤计算分数。有没有在 python 中执行此操作的项目?
我不是在寻找可以帮助我找到分数的操作序列(正如这里所要求的那样)
我很想自己实现每个阶段,或者从不同的库中粘合函数,以便它适用于句子对,但我主要需要它作为测试数据推论的工具。
编辑:我正在考虑使用 NLTK 并计算迭代两个句子的每对单词的分数,然后从结果的标准差中得出推论,但我不知道这是否是对相似性的合理估计。另外,对于长字符串,这将花费大量时间。
同样,我正在寻找已经智能地实现这一点的项目/库。让我这样做的东西:
import amazing_semsim_package
str1='Birthday party ruined as cake explodes'
str2='Grandma mistakenly bakes cake using gunpowder'
>>similarity(str1,str2)
>>0.889