1

我有一个清单:list = ['item1', 'item2', 'item3', 'item4']

我想比较所有项目的相似性。

如果item2item3相似,则结果变为list = ['item1', 'item2', 'item4']

编辑:

抱歉我的困惑问题。

列表项是一组三元组。我想删除列表中的类似项目。

list = [('very','beauty','place'),('very','good','place'),('another','trigram','item')]

通过计算该列表中每个对项的 jaccard 相似度,如果对项的 jaccard 分数 > 0.4,我称之为相似。在此示例中,item1 和 item2 相似。我想要的最后一个输出是:

list = [('very','beauty','place'),('another','trigram','item')]

这是计算jaccard分数的方法:

def compute_jaccard_index(set_1, set_2):
   n = len(set_1.intersection(set_2))
   return n / float(len(set_1) + len(set_2) - n)
4

4 回答 4

2

此解决方案将继续查看两个元素,直到它查看所有对而不过滤任何元素。这不是一个有效的解决方案,因为它将继续一遍又一遍地查看相同的对,并且它也没有利用可能的传递性。但这是一个开始。

>>> from itertools import combinations
>>> def filterSimilar (d):
        while True:
            filteredOne = False
            for s, t in combinations(d, 2):
                if isSimilar(s, t):
                    d.remove(t)
                    filteredOne = True
                    break
            if not filteredOne:
                break
>>> d = ['asdf', 'asxf', 'foo', 'bar', 'baz']   
>>> filterSimilar(d)
>>> d
['asdf', 'foo', 'bar']

一个可能的示例实现isSimilar如下,它使用两个字符串之间的 Levenshtein 距离:

def levenshteinDistance (s, t):
    if len(s) == 0:
        return len(t)
    if len(t) == 0:
        return len(s)
    return min(levenshteinDistance(s[:-1], t) + 1, levenshteinDistance(s, t[:-1]) + 1, levenshteinDistance(s[:-1], t[:-1]) + (0 if s[-1] == t[-1] else 1))

def isSimilar (s, t):
    return levenshteinDistance(s, t) < 2

(请注意,我在此示例中使用的 Levenshtein 距离不是传递比较的示例)


使用您的compute_jaccard_index函数,该isSimilar函数现在如下所示:

def isSimilar (s, t):
    return compute_jaccard_index(s, t) > .4

然后用于您的示例数据:

>>> lst = [{'very','beauty','place'},{'very','good','place'},{'another','trigram','item'}]
>>> filterSimilar(lst)
>>> lst
[{'very', 'beauty', 'place'}, {'item', 'trigram', 'another'}]
于 2013-09-16T19:08:28.867 回答
2

如果您有相似函数而不是直接相等比较,这将起作用:

itemsToRemove = []
n = len(list)
for i in range(n):
  for j in range(i+1,n):
      if(similarTest(list[i], list[j]):
        itemsToRemove.append(list[i])
        break
return [item for item in list if item not in itemsToRemove]

当然,如果你真的想像其他人建议的那样删除相同的项目,那么套装会很好用。

于 2013-09-16T19:01:00.590 回答
2

如果这些项目是字符串或数字,您正在寻找内置的 set。

例如:

In [1]: foo = [1, 32, 4, 5, 6, 5]

In [2]: set(foo)
Out[2]: {1, 4, 5, 6, 32}

In [3]: list(set(foo))
Out[3]: [32, 1, 4, 5, 6]

取决于你所说的相似是什么意思。

于 2013-09-16T18:53:30.180 回答
0

您可以使用set.它将从列表中删除所有重复的元素。

>>>list = [1,2,3,4,4,5,2,3,1]
>>>list =set(list)
>>>list
set([1, 2, 3, 4, 5])
于 2013-09-16T18:54:23.637 回答