0

嗨,我正在寻找计算数据帧的多个文本列之间的余弦相似度以及名称列表,以返回最佳匹配和相似度得分。还希望根据基于相似度阈值的分数返回真假。

示例数据如下所示,

#df1

name1         name2      name 3
mahesh        suresh     suvarna
suresh        suresh     gv rao
suvarna       gv rao     ravi
kumar varma   Varma      suvarna
ravi shankar  robert     peter
d man mohan   kumar      man mohan

#df2 或名称列表

white_list
suresh
ram
rao gv
kumar varma
sameer
d mohan

#预期输出

Best_match  Score   result
Mahesh      0.85    TRUE
Ravi Kumar  0.32    FALSE
Suresh      0.48    FALSE
Varma       0.52    FALSE
Sameer      0.32    FALSE
Mohan       0.81    TRUE

有人可以帮我做到这一点。

4

0 回答 0