我在 python 中有两个句子,它们代表用户在输入中作为图像检索软件查询的词集:
sentence1 = "dog is the"
sentence2 = "the dog is a very nice animal"
我有一组带有描述的图像,例如:
sentence3 = "the dog is running in your garden"
我想恢复所有描述与用户插入的查询“非常接近”的图像,但是与描述相关的这部分应该在 0 和 1 之间进行标准化,因为它只是考虑地理标记的更复杂研究的一部分和图像的低级特征。
鉴于我使用以下方法创建了三组:
set_sentence1 = set(sentence1.split())
set_sentence2 = set(sentence2.split())
set_sentence3 = set(sentence3.split())
并将集合之间的交集计算为:
intersection1 = set_sentence1.intersection(set_sentence3)
intersection2 = set_sentence2.intersection(set_sentence3)
我怎样才能有效地标准化比较?
我不想使用 levensthein 距离,因为我对字符串相似性不感兴趣,而是对集合相似性感兴趣。