4

我有一个包含许多子列表的列表。例如:

full_list = [[1, 1, 3, 4], [3, 99, 5, 2],[2, 4, 4], [3, 4, 5, 2, 60]]

我还有另一个列表,称为省略。例如:

omit = [99, 60, 98]

如果该子列表中的任何元素在省略列表中,我想删除 full_list 中的子列表。例如,我希望结果列表为:

reduced_list = [[1, 1, 3, 4], [2, 4, 4]]

因为只有这些子列表没有省略列表中的元素。

我猜有一些简单的方法可以通过列表理解来解决这个问题,但我无法让它发挥作用。我尝试了很多东西:例如:

reduced_list = [sublist for sublist in full_list if item for sublist not in omit] 
  • 此代码导致错误(无效的 snytax) - 但我认为我遗漏的不止这些。

任何帮助将非常感激!

ps,上面是一个简化的问题。我的最终目标是从一个非常长的字符串列表(例如,500,000 个子列表)中删除子列表,如果这些子列表的任何元素(一个字符串)在“省略”列表中包含超过 2000 个字符串。

4

3 回答 3

5

使用setall()

>>> omit = {99, 60, 98}
>>> full_list = [[1, 1, 3, 4], [3, 99, 5, 2],[2, 4, 4], [3, 4, 5, 2, 60]]
>>> [item for item in full_list if all(x not in omit for x in item)]
[[1, 1, 3, 4], [2, 4, 4]]

此方法与@alecxe(或@Óscar López)解决方案之间的主要区别在于,它会all短路并且不会在内存中创建任何集合或列表,而 set-intersection 返回一个新集合,其中包含与omit集合共有的所有项目并检查它的长度以确定是否有任何项目是常见的。(set-intersection 在内部以 C 速度发生,因此它比在中使用的普通 python 循环更快all

时序对比:

>>> import random

没有项目相交:

>>> omit = set(random.randrange(1, 10**18) for _ in xrange(100000))
>>> full_list = [[random.randrange(10**19, 10**100) for _ in xrange(100)] for _ in xrange(1000)]

>>> %timeit [item for item in full_list if not omit & set(item)]
10 loops, best of 3: 43.3 ms per loop
>>> %timeit [x for x in full_list if not omit.intersection(x)]
10 loops, best of 3: 28 ms per loop
>>> %timeit [item for item in full_list if all(x not in omit for x in item)]
10 loops, best of 3: 65.3 ms per loop

所有项目相交:

>>> full_list = [range(10**3) for _ in xrange(1000)]
>>> omit = set(xrange(10**3))
>>> %timeit [item for item in full_list if not omit & set(item)]
1 loops, best of 3: 148 ms per loop
>>> %timeit [x for x in full_list if not omit.intersection(x)]
1 loops, best of 3: 108 ms per loop
>>> %timeit [item for item in full_list if all(x not in omit for x in item)]
100 loops, best of 3: 1.62 ms per loop

一些项目相交:

>>> omit = set(xrange(1000, 10000))
>>> full_list = [range(2000) for _ in xrange(1000)]
>>> %timeit [item for item in full_list if not omit & set(item)]
1 loops, best of 3: 282 ms per loop
>>> %timeit [x for x in full_list if not omit.intersection(x)]
1 loops, best of 3: 159 ms per loop
>>> %timeit [item for item in full_list if all(x not in omit for x in item)]
1 loops, best of 3: 227 ms per loop
于 2013-09-05T20:27:12.990 回答
2

尝试这个:

full_list = [[1, 1, 3, 4], [3, 99, 5, 2], [2, 4, 4], [3, 4, 5, 2, 60]]
omit = frozenset([99, 60, 98])
reduced_list = [x for x in full_list if not omit.intersection(x)]

我对输入数据所做的唯一更改omit是现在是一个集合,出于效率原因,因为它允许我们执行快速交叉(它被冻结,因为我们不打算修改它),请注意x不必须是一组。现在reduced_list变量将包含预期值:

reduced_list
=> [[1, 1, 3, 4], [2, 4, 4]]
于 2013-09-05T20:27:36.377 回答
1

omit一个集合,检查迭代的每一步是否有交集:

>>> full_list = [[1, 1, 3, 4], [3, 99, 5, 2],[2, 4, 4], [3, 4, 5, 2, 60]]
>>> omit = [99, 60, 98]
>>> omit = set(omit)  # or just omit = {99, 60, 98} for python >= 2.7
>>> [item for item in full_list if not omit & set(item)]
[[1, 1, 3, 4], [2, 4, 4]]

仅供参考,最好使用 afrozenset而不是 @Óscar López 建议的 set。它frozenset运行得更快一点:

import timeit


def omit_it(full_list, omit):
    return [item for item in full_list if not omit & set(item)]

print timeit.Timer('omit_it([[1, 1, 3, 4], [3, 99, 5, 2],[2, 4, 4], [3, 4, 5, 2, 60]], {99, 60, 98})',
                   'from __main__ import omit_it').timeit(10000)

print timeit.Timer('omit_it([[1, 1, 3, 4], [3, 99, 5, 2],[2, 4, 4], [3, 4, 5, 2, 60]], frozenset([99, 60, 98]))',
                   'from __main__ import omit_it').timeit(10000)

印刷:

0.0334849357605
0.0319349765778
于 2013-09-05T20:26:38.593 回答