1

在 python 中,我正在从事一个项目,该项目经常涉及计算有多少具有某些给定属性的对象与某些条件匹配。我可以看到如何使用元组或对象列表或数据库来执行此操作,但我想知道以这种方式过滤对象列表是否是“明显的 pythonic”方式。

我想到的选项如下所示:

list_of_all = [object_type(property0, property1, ...), ...]
number_of_matches = len(filter(object_type.property2_test(property2),
    filter(object_type.property1_getter, list_of_all)

list_of_all = [object_type(property0, property1, ...), ...]
number_of_matches = len([0 for candidate in list_of_all
    if candidate.property1 and candidate.property2 == property2])

list_of_all = [(property0, property1, ...), ...]
number_of_matches = len([0 for candidate in list_of_all
    if candidate[1] and candidate[2] == property2])

db_cursor.execute("""CREATE TABLE table_of_all
    (property0 INTEGER, property1 INTEGER, ...)""")
number_of_matches = len(db_cursor.execute("""SELECT 1 FROM table_of_all
    WHERE property1 = 1 AND property2 = ?""", (property2,)).fetchall())

在我的代码上下文中使用最后两个,timeit 告诉我存在如此显着的差异。

$ python -m timeit -n 100 'import with_db' | tail -n1
100 loops, best of 3: 0.751 usec per loop
$ python -m timeit -n 100 'import with_list' | tail -n1
100 loops, best of 3: 0.761 usec per loop

这两个值每次都在 0.751 和 0.811 之间。

一般来说,我的用例由几百个(用于测试目的)到至少 40000 个对象组成。它们用于模拟循环(无需等待 I/O)。每次循环迭代都包含大约 50 个这样的查找,可能会找到一个属性的最大值,以及两个对象的更新,但如果还有其他用例存在最佳解决方案,那也会很有趣。

对于此类任务是否有明显更好的解决方案,或者是否存在选择这些解决方案中的任何一个会产生影响的不同类型的任务?

4

1 回答 1

5

您可以让数据库进行计数:

SELECT COUNT(*) FROM table_of_all
    WHERE property1 = 1 AND property2 = ?

sum在 Python 中,您可以通过使用和生成器表达式来避免创建中间列表:

sum(1 for candidate in list_of_all
    if candidate.property1 and candidate.property2 == property2)
于 2012-10-26T17:04:28.650 回答