6

在一个稍微做作的实验中,我想将 Python 的一些内置函数与 numpy 的内置函数进行比较。不过,当我开始计时时,我发现了一些奇怪的东西。

当我写下以下内容时:

import timeit
timeit.timeit('import math; math.e**2', number=1000000)

我将以非常具有统计意义的方式以几乎随机交替的方式得到两个不同的结果。

这在 2 秒和 0.5 秒之间交替。

这让我很困惑,所以我进行了一些实验来弄清楚发生了什么,我只是更加困惑。所以我尝试了以下实验:

[timeit.timeit('import math; math.e**2', number=1000000) for i in xrange(100)]

这完全导致了 0.5 的数字。然后我尝试用生成器播种:

test = (timeit.timeit('import math; math.e**2', number=1000000) for i in xrange(100))
[item for item in test]

这导致了一个完全充满 2.0 数字的列表。

在 alecxe 的建议下,我将 timeit 语句更改为:

timeit.timeit('math.e**2', 'import math', number=1000000)

类似地在大约 0.1 和 0.4 秒之间交替,但是当我重新运行比较生成器和列表理解的实验时,但这次结果被翻转了。也就是说,生成器表达式定期得出 0.1 秒的数字,而列表推导返回的是 0.4 秒数字的完整列表。

直接控制台输出:

>>> test = (timeit.timeit('math.e**2', 'import math', number=1000000) for i in xrange(100))
>>> test.next()
0.15114784240722656

>>> timeit.timeit('math.e**2', 'import math', number=1000000)
0.44176197052001953
>>> 

编辑:我正在使用运行 dwm 的 Ubuntu 12.04,我在 xterm 和 gnome-terminal 中都看到了这些结果。我正在使用 python 2.7.3

有人知道这里发生了什么吗?这对我来说似乎真的很奇怪。

4

1 回答 1

1

原来这里发生了几件事,虽然显然其中一些怪癖是我的机器特有的,但我认为值得发布它们以防有人对同样的事情感到困惑。

首先,两个 timeit 函数之间的不同之处在于:

timeit.timeit('math.e**2', 'import math', number=1000000)

导入语句是延迟加载的。如果您尝试以下实验,这将变得很明显:

timeit.timeit('1+1', 'import math', number=1000000)

相对:

timeit.timeit('1+1', number=1000000)

因此,当它直接在列表推导中运行时,看起来这个 import 语句正在为每个条目加载。(具体原因可能和我的配置有关)。

过去,回到最初的问题,看起来 3/4 的时间实际上都花在了导入数学上,所以我猜想当方程生成时,迭代之间没有缓存存储,而有导入缓存在列表理解中(同样,确切的原因可能是特定于配置的)

于 2013-09-01T19:42:39.340 回答