前几天我在做一些 Python 基准测试,遇到了一些有趣的事情。下面是两个或多或少做同样事情的循环。循环 1 的执行时间大约是循环 2 的两倍。
循环 1:
int i = 0
while i < 100000000:
i += 1
循环 2:
for n in range(0,100000000):
pass
为什么第一个循环这么慢?我知道这是一个微不足道的例子,但它激起了我的兴趣。range() 函数有什么特别之处,使其比以相同方式递增变量更有效吗?
前几天我在做一些 Python 基准测试,遇到了一些有趣的事情。下面是两个或多或少做同样事情的循环。循环 1 的执行时间大约是循环 2 的两倍。
循环 1:
int i = 0
while i < 100000000:
i += 1
循环 2:
for n in range(0,100000000):
pass
为什么第一个循环这么慢?我知道这是一个微不足道的例子,但它激起了我的兴趣。range() 函数有什么特别之处,使其比以相同方式递增变量更有效吗?
看python字节码的反汇编,你可能会有更具体的想法
使用 while 循环:
1 0 LOAD_CONST 0 (0)
3 STORE_NAME 0 (i)
2 6 SETUP_LOOP 28 (to 37)
>> 9 LOAD_NAME 0 (i) # <-
12 LOAD_CONST 1 (100000000) # <-
15 COMPARE_OP 0 (<) # <-
18 JUMP_IF_FALSE 14 (to 35) # <-
21 POP_TOP # <-
3 22 LOAD_NAME 0 (i) # <-
25 LOAD_CONST 2 (1) # <-
28 INPLACE_ADD # <-
29 STORE_NAME 0 (i) # <-
32 JUMP_ABSOLUTE 9 # <-
>> 35 POP_TOP
36 POP_BLOCK
循环体有 10 个 op
使用范围:
1 0 SETUP_LOOP 23 (to 26)
3 LOAD_NAME 0 (range)
6 LOAD_CONST 0 (0)
9 LOAD_CONST 1 (100000000)
12 CALL_FUNCTION 2
15 GET_ITER
>> 16 FOR_ITER 6 (to 25) # <-
19 STORE_NAME 1 (n) # <-
2 22 JUMP_ABSOLUTE 16 # <-
>> 25 POP_BLOCK
>> 26 LOAD_CONST 2 (None)
29 RETURN_VALUE
循环体有 3 个 op
运行 C 代码的时间比解释器要短得多,可以忽略。
range()
在 C 中实现,而i += 1
被解释。
使用xrange()
可以使它更快地处理大量数据。从 Python 3.0 开始与range()
以前相同xrange()
。
必须说,在 while 循环中进行了大量的对象创建和销毁。
i += 1
是相同的:
i = i + 1
但是因为 Python int 是不可变的,所以它不会修改现有对象;相反,它创建了一个具有新价值的全新对象。基本上是:
i = new int(i + 1) # Using C++ or Java-ish syntax
垃圾收集器还将进行大量清理工作。“对象创建很昂贵”。
我认为这里的答案比其他答案建议的要微妙一些,尽管它的要点是正确的:for 循环更快,因为更多的操作发生在 C 中,而在 Python 中发生的更少。
更具体地说,在 for 循环的情况下,C 中发生了两件事,而 while 循环中则在 Python 中处理:
在 while 循环中,比较i < 100000000
在 Python 中执行,而在 for 循环中,作业被传递给 的迭代器range(100000000)
,该迭代器在 C 中内部执行迭代(并因此进行边界检查)。
在 while 循环中,循环更新i += 1
发生在 Python 中,而在 for 循环中range(100000000)
,用 C 编写的迭代器再次执行i+=1
(或++i
)。
我们可以看到,通过手动将它们添加回去以查看差异,正是这两者的结合使 for 循环更快。
import timeit
N = 100000000
def while_loop():
i = 0
while i < N:
i += 1
def for_loop_pure():
for i in range(N):
pass
def for_loop_with_increment():
for i in range(N):
i += 1
def for_loop_with_test():
for i in range(N):
if i < N: pass
def for_loop_with_increment_and_test():
for i in range(N):
if i < N: pass
i += 1
def main():
print('while loop\t\t', timeit.timeit(while_loop, number=1))
print('for pure\t\t', timeit.timeit(for_loop_pure, number=1))
print('for inc\t\t\t', timeit.timeit(for_loop_with_increment, number=1))
print('for test\t\t', timeit.timeit(for_loop_with_test, number=1))
print('for inc+test\t', timeit.timeit(for_loop_with_increment_and_test, number=1))
if __name__ == '__main__':
main()
我尝试了数字 100000000 一个字面常量和它是一个N
更典型的变量。
# inline constant N
while loop 3.5131139
for pure 1.3211338000000001
for inc 3.5477727000000003
for test 2.5209639
for inc+test 4.697028999999999
# variable N
while loop 4.1298240999999996
for pure 1.3526357999999998
for inc 3.6060175
for test 3.1093069
for inc+test 5.4753364
如您所见,在这两种情况下,while
时间都非常接近 和 的for inc+test
差值for pure
。另请注意,在我们使用N
变量的情况下,while
重复查找 的值时会额外减速N
,但for
不会。
如此微不足道的修改可以导致超过3 倍的代码加速,这真是太疯狂了,但那是 Python 适合你的。当你可以在循环中使用内置函数时,甚至不要让我开始......
因为您在解释器中更频繁地运行用 C 编写的代码。即 i+=1 在 Python 中,所以很慢(相对而言),而 range(0,...) 是一个 C 调用,for 循环也将主要在 C 中执行。
大多数 Python 的内置方法调用都作为 C 代码运行。必须解释的代码要慢得多。在内存效率和执行速度方面,差异是巨大的。python 内部已经优化到了极致,最好利用这些优化。