df = pd.DataFrame({'source': [1000, 1000, 1001, 1001, 1002,1002], 'acceptability': [1,0,1,0,1,0], 'sentence': ['I do not know', 'I does not know', 'you are stupid', 'you is stupid', 'she is bad for python', 'she are bad for python']})
我想要做的是比较两个共享相同来源的句子。在拆分或合并(无论如何..)之后,我想在两个句子之间使用 Jaccard Similarity。
我不知道如何用循环来完成它。
也许原型是这样的。
来源:1000,可接受性:1,句子:
来源:1000,可接受性:0,句子:
……
来源:1001,可接受性:1,句子:
来源:1001,可接受性:0,句子:
...
在将 DataFrame 与循环站拆分后,我希望根据 Jaccard Similarity 比较这些对。如果这对的相似度分数太低,我想从 DataFrame 中删除该对。
我真的需要你们帮助!!
谢谢你帮助我!