嗨,我正在寻找计算数据帧的多个文本列之间的余弦相似度以及名称列表,以返回最佳匹配和相似度得分。还希望根据基于相似度阈值的分数返回真假。
示例数据如下所示,
#df1
name1 name2 name 3
mahesh suresh suvarna
suresh suresh gv rao
suvarna gv rao ravi
kumar varma Varma suvarna
ravi shankar robert peter
d man mohan kumar man mohan
#df2 或名称列表
white_list
suresh
ram
rao gv
kumar varma
sameer
d mohan
#预期输出
Best_match Score result
Mahesh 0.85 TRUE
Ravi Kumar 0.32 FALSE
Suresh 0.48 FALSE
Varma 0.52 FALSE
Sameer 0.32 FALSE
Mohan 0.81 TRUE
有人可以帮我做到这一点。