4

所以我有这个清单:a = [-11, 13, 13, 10, -11, 10, 9, -3, 6, -9, -6, -6, 13, 8, -11, -5, 6, -8, -12, 5, -9, -1, -5, 2, -2, 13, 14, -9, 7, -4]

并且通过使用一组我需要删除重复项并将它们保持在相同的顺序

我使用了这段代码:

def unique(a):
    a = set(a)
    return list(a)

当我使用它时它确实删除了重复项,但问题是它按数字顺序返回它们,如下所示:

>>> unique(a)
[-2, 2, 5, 6, 7, 8, 9, 10, 13, 14, -12, -11, -9, -8, -6, -5, -4, -3, -1]

如何在使用集合删除重复项时以与原始列表相同的顺序返回它?

编辑:

所以我使用了这段代码,因为它有效:

def unique(a):
    seen = set()
    return [seen.add(x) or x for x in a if x not in seen]

但有人可以向我解释它的作用吗?因为我需要再做一次,但它返回的列表没有负数,除非我理解该代码的作用,否则我不能这样做

4

2 回答 2

4

此功能已存在于itertools食谱中,如unique_everseen. 您可以从那里复制和粘贴它,或者阅读它以了解它是如何工作的,或者安装第三方包more-itertools并从那里使用它。

这是代码的简化版本:

def unique_everseen(iterable):
    seen = set()
    for element in iterable:
        if element not in seen:
            seen.add(element)
            yield element

配方中的版本允许key您不需要的功能,并且它有两个优化。但首先要了解简单的版本:

seen是迄今为止看到的所有值的集合。对于每个值,我们检查它是否在seen. 如果是这样,我们跳过它。否则,我们将它添加到集合yield中。所以,我们yield每个元素只是第一次看到它。


配方版本中的第一个优化很简单:查找seen.add方法不是很自由,所以我们只做一次而不是 N 次,通过做seen_add = seen.add. 这在对琐碎案例进行基准测试时会产生相当大的差异,例如小整数列表;在具有更昂贵的哈希值的实际用例中,它可能没有太大区别。

第二个优化是使用ifilterfalse而不是if跳过已经看到的元素。基本上这意味着如果你有 N 个元素和 M 个唯一元素,你只在 Python 中进行 M 次迭代,在内部优化的 C 代码中进行 N 次迭代ifilterfalse,而不是在 Python 中进行 N 次。由于在 C 中迭代要快得多,因此这是值得的,除非您的几乎所有元素都是唯一的。


要使其与key函数一起使用,您所要做的就是保持一组key(element)到目前为止看到的值,而不是迄今为止element看到的值。这使得ifilterfalse优化更难做,效率也更低,所以没有完成。


如果您只处理序列,而不是任意迭代,并且您可以依靠 Python 2.7+,那么还有另一种方法可以做到这一点,它几乎同样有效,甚至更简单:

def unique(a):
    return OrderedDict.fromkeys(a).keys()
于 2013-10-09T17:34:02.870 回答
2

滥用列表理解:

def unique(seq):
    seen = set()
    return [seen.add(x) or x for x in seq if x not in seen]
    # or use parentheses instead of brackets above for a generator
于 2013-10-09T17:42:49.710 回答