2

我有一个大约 1.5 亿点的时间序列。我需要放大 300 万个点。也就是说,我需要在这 1.5 亿点时间序列中提取围绕这 300 万个感兴趣区域中的每一个的 100 个时间点

试图:

 def get_waveforms(data,spiketimes,lookback=100,lookahead=100):
      answer = zeros((len(spiketimes),(lookback+lookahead)))
      duration = len(data)
      for i in xrange(len(spiketimes)):
          if(spiketimes[i] - lookback) > 0 and spiketimes[i] + lookahead) < duration:
               answer[i,:] = data[(spiketimes[i]-lookback):(spiketimes[i]+lookahead)]
      return answer

这会耗尽我 Mac 上的所有可用内存。如果我尝试传递 where 数组,它会爆炸len(array) > 100000。是否有更高效的内存或(希望)更优雅的方法来根据另一个数组提取一个数组的一部分?

相关 这个答案是相关的。但是,我不确定如何应用它并避免循环。我会有效地用布尔矩阵的列一遍又一遍地索引时间序列向量吗?

4

1 回答 1

1

您正在分配一个200 * len(spiketimes)浮点数组,因此对于您的 100,000 个项目,spiketimes应该只有大约 160 MB,这看起来并不多。另一方面,如果你去 1,000,000 spiketimes,一个 1.6 GB 的单个阵列对于某些系统来说可能是一个延伸。如果你有记忆,你可以用这样的方式对提取进行矢量化:

def get_waveforms(data, spiketimes, lookback=100, lookahead=100) :
    offsets = np.arange(-lookback, lookahead)
    indices = spiketimes + offsets[:, None]
    ret = np.take(data, indices, mode='clip')
    ret[:, spiketimes < lookback] = 0
    ret[:, spiketimes + lookahead >= len(data)] = 0
    return ret

spiketimes太靠近边缘的处理data模仿了你的函数中的循环。

当您拥有如此多的数据时,明智的做法是将视图纳入其中。这很难矢量化(或者至少我还没有想出如何),但由于你没有复制任何数据,python循环不会慢得多:

def get_waveforms_views(data, spiketimes, lookback=100, lookahead=100) :
    ret = []
    for j in spiketimes :
        if j < lookback or j + lookahead >= len(data) :
            ret.append(None)
        else :
            ret.append(data[j - lookback:j + lookahead])
    return ret

使用以下测试数据:

data_points, num_spikes = 1000000, 10000

data = np.random.rand(data_points)
spiketimes = np.random.randint(data_points, size=(num_spikes))

我得到这些时间:

In [2]: %timeit get_waveforms(data, spiketimes)
1 loops, best of 3: 320 ms per loop

In [3]: %timeit get_waveforms_views(data, spiketimes)
1 loops, best of 3: 313 ms per loop
于 2013-02-22T04:16:53.600 回答