我有以下数据框
Column1 Column2
tomato fruit tomatoes are not a fruit
potato la best potatoe are some sort of fruit
apple there are great benefits to appel
pear peer
我想查找左边的单词/句子和右边的句子,如果最大前两个单词匹配(例如'potato la'并省略'best'),那么它会给出一个分数。
我已经使用了两种不同的方法:
for i in range(0, len(Column1)):
store_it = SM(None, Column1[i], Column2[i]).get_matching_blocks()
print(store_it)
和
df['diff'] = df.apply(lambda x: diff.SequenceMatcher(None, x[0].strip(), x[1].strip()).ratio(), axis=1)
我在互联网上找到的。
第二个工作正常,除了它试图匹配整个短语。如何将第一列中的单词与第二列中的句子匹配,以便最终给我一个“是”它们在句子中(或部分)或“不”它们不是。