我最近越来越多地使用 python 代替 c/c++,因为它可以将我的编码时间缩短几倍。同时,当我处理大量数据时,我的 python 程序的运行速度开始变得比 c 慢很多。我想知道这是否是因为我使用大对象/数组效率低下。有没有关于 numpy/python 如何处理内存的综合指南?什么时候通过引用传递,什么时候通过值传递,什么时候复制,什么时候不复制,哪些类型是可变的,哪些不是。
2 回答
python(和大多数主流语言)中的对象作为引用传递。
例如,如果我们以 numpy 为例,通过索引现有数组创建的“新”数组只是原始数组的视图。例如:
import numpy as np
>>> vec_1 = np.array([range(10)])
>>> vec_1
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> vec_2 = vec_1[3:] # let vec_2 be vec_1 from the third element untill the end
>>> vec_2
array([3, 4, 5, 6, 7, 8, 9])
>>> vec_2[3] = 10000
array([3, 4, 5, 10000, 7, 8, 9])
>>> vec_1
array([0, 1, 2, 3, 4, 5, 10000, 7, 8, 9])
Numpy 有一个方便的方法来帮助您解决问题,称为 may_share_memory(obj1, obj2)。所以:
>>> np.may_share_memory(vec_1, vec_2)
True
请小心,因为该方法可能会返回误报(尽管我从未见过)。
在 SciPy 2013 上有一个关于 numpy 的教程(http://conference.scipy.org/scipy2013/tutorial_detail.php?id=100)。最后,这个家伙谈到了 numpy 如何处理内存。看它。
根据经验,默认情况下对象几乎从不作为值传递。甚至那些封装在另一个对象上的。另一个示例,列表进行巡回演出:
Class SomeClass():
def __init__(a_list):
self.inside_list = a_list
def get_list(self):
return self.inside_list
>>> original_list = range(5)
>>> original_list
[0,1,2,3,4]
>>> my_object = SomeClass(original_list)
>>> output_list = my_object.get_list()
>>> output_list
[0,1,2,3,4]
>>> output_list[4] = 10000
>>> output_list
[0,1,2,3,10000]
>>> my_object.original_list
[0,1,2,3,10000]
>>> original_list
[0,1,2,3,10000]
令人毛骨悚然,是吗?使用赋值符号 ("="),或在函数末尾返回一个,您将始终创建指向对象或其一部分的指针。只有当你明确地这样做时,对象才会被复制,使用像 some_dict.copy 或 array[:] 这样的复制方法。例如:
>>> original_list = range(5)
>>> original_list
[0,1,2,3,4]
>>> my_object = SomeClass(original_list[:])
>>> output_list = my_object.get_list()
>>> output_list
[0,1,2,3,4]
>>> output_list[4] = 10000
>>> output_list
[0,1,2,3,10000]
>>> my_object.original_list
[0,1,2,3,10000]
>>> original_list
[0,1,2,3,4]
知道了?
所以我将不得不在此引用 EOL,因为我认为他的回答非常相关:
3)最后一点与题名有关:“按值传递”和“按引用传递”不是Python中相关的概念。相关概念是“可变对象”和“不可变对象”。列表是可变的,而数字不是,这解释了你观察到的东西。此外,您的 Person1 和 bar1 对象是可变的(这就是您可以更改此人年龄的原因)。您可以在文本教程和视频教程中找到有关这些概念的更多信息。维基百科也有一些(更技术性的)信息。一个例子说明了可变和不可变之间的行为差异 - EOL 的回答
一般来说,我发现 Numpy/Scipy 遵循这些;更重要的是,他们在文档中明确告诉您正在发生的事情。
例如
np.random.shuffle
,要求输入数组并返回None
,而np.random.permutation
返回数组。您可以在这里清楚地看到哪个返回值而不是返回值。
类似地,数组具有传递引用语义,总的来说,我发现Numpy/Scipy
它非常有效。
我认为可以公平地说,如果使用速度更快,pass-by-reference
他们会的。只要您按照文档所说的方式使用这些功能,您就不应该在速度方面遇到重大问题。
您要问的具体类型有哪些?