193

如何从生成器对象中构建一个 numpy 数组?

让我来说明问题:

>>> import numpy
>>> def gimme():
...   for x in xrange(10):
...     yield x
...
>>> gimme()
<generator object at 0x28a1758>
>>> list(gimme())
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
>>> numpy.array(xrange(10))
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> numpy.array(gimme())
array(<generator object at 0x28a1758>, dtype=object)
>>> numpy.array(list(gimme()))
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

在这种情况下,gimme()是我想将其输出转换为数组的生成器。但是,数组构造函数不会遍历生成器,它只是存储生成器本身。我想要的行为是 from numpy.array(list(gimme())),但我不想支付同时在内存中拥有中间列表和最终数组的内存开销。有没有更节省空间的方法?

4

5 回答 5

232

在这个 stackoverflow 结果后面的一个谷歌,我发现有一个numpy.fromiter(data, dtype, count). 默认count=-1从可迭代对象中获取所有元素。它需要dtype明确设置。就我而言,这有效:

numpy.fromiter(something.generate(from_this_input), float)

于 2009-02-24T03:53:18.183 回答
147

Numpy 数组需要在创建时明确设置它们的长度,这与 python 列表不同。这是必要的,以便可以在内存中连续分配每个项目的空间。连续分配是 numpy 数组的关键特性:这与本机代码实现相结合,让对它们的操作执行得比常规列表快得多。

牢记这一点,在技术上不可能将生成器对象转换为数组,除非您:

  1. 可以预测运行时会产生多少元素:

    my_array = numpy.empty(predict_length())
    for i, el in enumerate(gimme()): my_array[i] = el
    
  2. 愿意将其元素存储在中间列表中:

    my_array = numpy.array(list(gimme()))
    
  3. 可以制作两个相同的生成器,遍历第一个找到总长度,初始化数组,然后再次遍历生成器找到每个元素:

    length = sum(1 for el in gimme())
    my_array = numpy.empty(length)
    for i, el in enumerate(gimme()): my_array[i] = el
    

1可能是您正在寻找的。2空间效率低,3时间效率低(您必须通过生成器两次)。

于 2008-12-15T06:31:12.347 回答
22

虽然您可以使用 生成器创建一维数组numpy.fromiter(),但您可以使用 生成器创建 ND 数组numpy.stack

>>> mygen = (np.ones((5, 3)) for _ in range(10))
>>> x = numpy.stack(mygen)
>>> x.shape
(10, 5, 3)

它也适用于一维数组:

>>> numpy.stack(2*i for i in range(10))
array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

请注意,这numpy.stack是在内部使用生成器并使用arrays = [asanyarray(arr) for arr in arrays]. 可以在这里找到实现。

[警告] 正如@Joseh Seedy 所指出的,Numpy 1.16 提出了一个警告,该警告使生成器无法使用此类功能。

于 2017-08-31T11:33:39.720 回答
6

有点切线,但如果你的生成器是一个列表理解,你可以numpy.where更有效地得到你的结果(我在看到这篇文章后在我自己的代码中发现了这一点)

于 2009-05-12T20:33:33.277 回答
0

vstack 、hstackdstack函数可以作为产生多维数组的输入生成器。

于 2018-11-14T20:27:17.427 回答