我没有意识到 Python set 函数实际上将字符串分隔为单个字符。我为 Jaccard 编写了 python 函数并使用了 python 交集方法。我将两个集合传递给这个方法,在将这两个集合传递给我的 jaccard 函数之前,我在 setring 上使用了 set 函数。
示例:假设我有NEW Fujifilm 16MP 5x Optical Zoom Point and Shoot CAMERA 2 7 screen.jpg
我要调用的字符串set(NEW Fujifilm 16MP 5x Optical Zoom Point and Shoot CAMERA 2 7 screen.jpg)
,它将字符串分成字符。因此,当我将它发送到 jaccard 函数交集时,实际上是看字符交集而不是单词到单词的交集。我怎样才能做到字对字交叉。
#implementing jaccard
def jaccard(a, b):
c = a.intersection(b)
return float(len(c)) / (len(a) + len(b) - len(c))
如果我不在set
我的字符串上调用函数,我NEW Fujifilm 16MP 5x Optical Zoom Point and Shoot CAMERA 2 7 screen.jpg
会收到以下错误:
c = a.intersection(b)
AttributeError: 'str' object has no attribute 'intersection'
而不是字符到字符的交集,我想做单词到单词的交集并获得 jaccard 相似度。