1

我有一个数字列表。

L1=[12,32,21,......]

我需要对每个成员执行以下测试,最多容忍 2 次失败 - 不再有。

注意:该功能是说明性的(不是实际的)- 目标是测试每个成员并将失败的成员作为列表返回。
同样出于性能考虑,这个想法是一旦失败超过 2 就中止。

def isgreaterthan10(self,x):
    if x<10:
        return false
    else:
        return true

所以我做了以下。

def evaluateList(L1):
    Failedlist=list()
    Failures=0
    for x in L1:
        if not isgreaterthan10(x):
            Failedlist.add(x)
            Failures+=1
            if Failures>2:
                return (False,[])
    return (True,Failedlist)

但我确信这可以以更有效的“pythonic”方式完成,因为性能非常好。将不胜感激任何帮助实现同样的目标。
我在 Python 2.6.5

4

6 回答 6

3

如果性能是关键,我会使用 numpy(或 scipy)对其进行矢量化。

>>> import numpy
>>> L1 = [47, 92, 65, 25, 44, 8, 74, 42, 48, 56, 74, 5, 60, 84, 88, 16, 69, 87, 9, 82, 69, 82, 40, 49, 1, 45, 93, 70, 22, 40, 97, 49, 95, 34, 28, 91, 79, 9, 32, 91, 41, 22, 36, 2, 57, 69, 81, 73, 7, 71]
>>> arr = numpy.array(L1)
>>> count_of_num_greater_than_10 = numpy.sum(arr > 10)
>>> num_greater_than_10 <= 2
False

当然,它不会短路,所以如果你很早就有两个错误的陈述,它会计算其余的。

计时结果。

简单的计时测试,使用从 1 到 100 的数字填充的随机 1000 个元素列表进行 1000 次迭代(在启动计时器之前完成数组创建的设置),显示矢量化方法快 100 倍以上。

>>> import timeit
>>> timeit.timeit('sum([n>10 for n in L1])>=2', 
      setup='import numpy; L1=list(numpy.random.randint(1,100,1000))', 
      number=1000)
2.539483070373535
>>> timeit.timeit('numpy.sum(L1>10)>=2', 
      setup='import numpy; L1=numpy.random.randint(1,100,1000)', 
      number=1000)
0.01939105987548828

如果您想要失败的成员,那并不难;您可以通过以下方式找到不大于 10 的数字:

>>> list(arr[numpy.where(arr<10)])
[8, 5, 9, 1, 9, 2, 7]

同样,矢量化版本比非矢量化版本快几个数量级:

>>> timeit.timeit('[i for i in L1 if i < 10]', 
      setup='import numpy; L1=list(numpy.random.randint(1,100,1000))', 
      number=1000)
0.4471170902252197
>>> timeit.timeit('L1[numpy.where(L1<10)]', 
      setup='import numpy; L1=numpy.random.randint(1,100,1000)', 
      number=1000)
0.011003971099853516
于 2013-05-23T02:50:16.870 回答
2

最好的方法是通过numpy(查看@drjimbob 的时间安排),但这是一个纯 python 解决方案。与创建列表组合的解决方案不同,此解决方案是延迟评估的。

from operator import gt
from itertools import ifilter, islice
from functools import partial

def F(seq, N, limit):
    it = ifilter(partial(gt, limit), seq)
    failed = list(islice(it, N))
    return (True, failed) if next(it, None) is None else (False, [])

>>> F([10, 11, 12], 2, 10)
(True, [])
>>> F([1, 2], 2, 10)
(True, [1, 2])
>>> F([1, 2, 3], 2, 10)
(False, [])

但是,您可能会发现您的解决方案无论如何运行得更快(不考虑 numpy)

于 2013-05-23T03:22:16.807 回答
1

首先,您可以简化您的第一个功能。我将省略self它以便于测试,但将其修改为类方法是微不足道的:

def isgreaterthan10(x):
    return x > 10

现在,我们可以使用列表推导来简化evaluateList函数:

def evaluateList(li):
    x = [v for v in li if not is_greater(v)]
    if len(x) > 2:
        return (False, [])
    return (True, x)

或者,如果您使用的是 python 3 并且真的想玩代码高尔夫:

def evaluate(li):
    x = [v for v in li if not is_greater(v)]
    return (True, []) if len(x) > 2 else (False, x)
于 2013-05-23T02:53:19.477 回答
1

使它更 Pythonic 的一些提示:

在命名事物时,函数使用下划线,而不是 CamelCase,并且变量以小写字母开头。

您的过滤器函数可以简单地返回 的值x<10,而不是分支并返回布尔常量。我假设self它是类的一部分,但由于它从不使用self,因此您可以将其定义为静态方法。

@staticmethod
def is_greater_than_10(x):
    return x < 10

(如果它不是类的一部分,只需self从参数列表中删除。)

在您的评估函数中,无需返回显式布尔常量来指示成功或失败(但不是因为我最初在评论中发布的原因)。相反,引发异常以指示过多的小值。

class TooManySmallValues(Exception):
    pass

def evaluate_list(l1):
    failed_list = list()
    failures=0
    for x in l1:
        if not is_greater_than_10(x):
            failed_list.append(x)
            failures+=1
            if failures>2:
                raise TooManySmallValues()
    return failed_list

现在,您可能已经像这样调用了该函数:

result, failures = evaluate_list(some_list)
if not result:
    # do something about the many small values
else:
    # do something about the acceptable list and the small number of failure

你会这样称呼它:

try:
    failures = evaluate_list(some_list)
except TooManySmallValues:
    # do something about the many small values

最后,除非列表很大,并且您实际上会通过提前停止而观察到显着的性能提升,否则请使用列表推导一次生成所有失败,然后检查有多少:

def improved_evaluate_list(l1):
    failed_list = [ x for x in l1 if not is_greater_than_10(x) ]
    if len(failed_list) > 2:
        raise TooManySmallValues()
    else:
        return failed_list
于 2013-05-23T12:01:00.270 回答
0

这个?

>>> def evaluateList(thelist):
...     mylist = [i for i in thelist if i < 10]
...     return (len(mylist)<=2,mylist if len(mylist)<=2 else [])
>>> L = [4, 36, 34, 12, 43, 9, 16, 19]
>>> evaluateList(L)
(True, [4, 9])
>>> K = [1, 64, 23, 6, 23, 14, 16, 22, 8]
(False, [])
于 2013-05-23T03:05:31.680 回答
0

你总是可以使用过滤器():

#!/usr/bin/python

def isnotgreaterthan10(x):
    return x <= 10

def evaluateList(L1):
    l = filter(isnotgreaterthan10, L1)
    return False if len(l) > 1 else True

def main():
    my_list_bad = [1, 2, 14, 15, 17]
    my_list_good = [1, 19, 22, 23]

    if evaluateList(my_list_bad):
        print("my_list_bad passes.")
    else:
        print("my_list_bad fails.")

    if evaluateList(my_list_good):
        print("my_list_good passes.")
    else:
        print("my_list_good fails.")

if __name__ == "__main__":
    main()
于 2013-05-23T03:26:46.823 回答