python - python numpy 和内存效率（通过引用与值传递）

Question

我最近越来越多地使用 python 代替 c/c++，因为它可以将我的编码时间缩短几倍。同时，当我处理大量数据时，我的 python 程序的运行速度开始变得比 c 慢很多。我想知道这是否是因为我使用大对象/数组效率低下。有没有关于 numpy/python 如何处理内存的综合指南？什么时候通过引用传递，什么时候通过值传递，什么时候复制，什么时候不复制，哪些类型是可变的，哪些不是。

score 15 · Accepted Answer

python（和大多数主流语言）中的对象作为引用传递。

例如，如果我们以 numpy 为例，通过索引现有数组创建的“新”数组只是原始数组的视图。例如：

import numpy as np

>>> vec_1 = np.array([range(10)])
>>> vec_1
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> vec_2 = vec_1[3:] # let vec_2 be vec_1 from the third element untill the end
>>> vec_2
array([3, 4, 5, 6, 7, 8, 9])
>>> vec_2[3] = 10000
array([3, 4, 5, 10000, 7, 8, 9])
>>> vec_1
array([0, 1, 2, 3, 4, 5, 10000, 7, 8, 9])

Numpy 有一个方便的方法来帮助您解决问题，称为 may_share_memory(obj1, obj2)。所以：

>>> np.may_share_memory(vec_1, vec_2)
True

请小心，因为该方法可能会返回误报（尽管我从未见过）。

在 SciPy 2013 上有一个关于 numpy 的教程（http://conference.scipy.org/scipy2013/tutorial_detail.php?id=100）。最后，这个家伙谈到了 numpy 如何处理内存。看它。

根据经验，默认情况下对象几乎从不作为值传递。甚至那些封装在另一个对象上的。另一个示例，列表进行巡回演出：

Class SomeClass():

    def __init__(a_list):
        self.inside_list = a_list

    def get_list(self):
        return self.inside_list

>>> original_list = range(5)
>>> original_list
[0,1,2,3,4]
>>> my_object = SomeClass(original_list)
>>> output_list = my_object.get_list()
>>> output_list
[0,1,2,3,4]
>>> output_list[4] = 10000
>>> output_list
[0,1,2,3,10000]
>>> my_object.original_list
[0,1,2,3,10000]
>>> original_list
[0,1,2,3,10000]

令人毛骨悚然，是吗？使用赋值符号 ("=")，或在函数末尾返回一个，您将始终创建指向对象或其一部分的指针。只有当你明确地这样做时，对象才会被复制，使用像 some_dict.copy 或 array[:] 这样的复制方法。例如：

>>> original_list = range(5)
>>> original_list
[0,1,2,3,4]
>>> my_object = SomeClass(original_list[:])
>>> output_list = my_object.get_list()
>>> output_list
[0,1,2,3,4]
>>> output_list[4] = 10000
>>> output_list
[0,1,2,3,10000]
>>> my_object.original_list
[0,1,2,3,10000]
>>> original_list
[0,1,2,3,4]

知道了？

score 2 · Accepted Answer

所以我将不得不在此引用 EOL，因为我认为他的回答非常相关：

3）最后一点与题名有关：“按值传递”和“按引用传递”不是Python中相关的概念。相关概念是“可变对象”和“不可变对象”。列表是可变的，而数字不是，这解释了你观察到的东西。此外，您的 Person1 和 bar1 对象是可变的（这就是您可以更改此人年龄的原因）。您可以在文本教程和视频教程中找到有关这些概念的更多信息。维基百科也有一些（更技术性的）信息。一个例子说明了可变和不可变之间的行为差异 - EOL 的回答

一般来说，我发现 Numpy/Scipy 遵循这些；更重要的是，他们在文档中明确告诉您正在发生的事情。

例如 np.random.shuffle，要求输入数组并返回None，而np.random.permutation返回数组。您可以在这里清楚地看到哪个返回值而不是返回值。

类似地，数组具有传递引用语义，总的来说，我发现Numpy/Scipy它非常有效。

我认为可以公平地说，如果使用速度更快，pass-by-reference他们会的。只要您按照文档所说的方式使用这些功能，您就不应该在速度方面遇到重大问题。

您要问的具体类型有哪些？

python - python numpy 和内存效率（通过引用与值传递）

2 回答 2

Related

Reference