2

现在我正在编写一些 python 代码,需要进行类似于以下的列表比较:

small_list = ["string"]*3
big_list = ["string"]*600000
big_list_excludes = ["string"]*600000

final_lines = []

for small in small_list:
    final_lines = [line for line in big_list if small in big_list]
    for exclude in big_list_excludes:
        final_lines = [line for line in final_lines if exclude not in final_lines]

到目前为止,列表还不是很大。执行已被分秒。但是,big_list 现在可以包含大约 60,000 个条目,“big_list_excludes”也可以。有谁知道缩短上述内容的方法,以便更快?另外 - 除了可以加快执行速度的列表之外,有没有人知道我可以使用的不同数据类型?我确实需要添加到这些列表中,但我不需要更改顺序。

另外,我希望这些列表比较不区分大小写。以前我通过执行以下操作来完成此操作:

for small in small_list:
    for line in big_list:
        if small.upper() in line.upper():
            final_lines.append(line)

我相当肯定这会大大降低速度。如果有人知道一种更有效地做到这一点的方法,那也会有所帮助。

4

1 回答 1

4

套装绝对是一种快速完成此操作的简单方法。不是真正的性能测试,但这个小程序可以立即运行(在 2.7GHz i7 iMac 上),包含 10,000 个项目:

from sets import Set

inc = set(open('big_list.txt').read().splitlines())
excl = set(open('big_list_excludes.txt').read().splitlines())
sm = set(open('small_list.txt').read().splitlines())

sm.intersection_update(inc)
sm.difference_update(excl)

print sm

但是,不区分大小写。

于 2013-07-09T20:55:01.340 回答