在 pandas 中,有几种方法可以在给定窗口中操作数据(例如pd.rolling_mean
,或pd.rolling_std
。)但是,我想设置一个窗口重叠,我认为这是一个非常标准的要求。例如,在下图中,您可以看到一个包含 256 个样本和重叠 128 个样本的窗口。
如何使用 Pandas 或 Numpy 中包含的优化方法来做到这一点?
使用as_strided
你会做这样的事情:
import numpy as np
from numpy.lib.stride_tricks import as_strided
def windowed_view(arr, window, overlap):
arr = np.asarray(arr)
window_step = window - overlap
new_shape = arr.shape[:-1] + ((arr.shape[-1] - overlap) // window_step,
window)
new_strides = (arr.strides[:-1] + (window_step * arr.strides[-1],) +
arr.strides[-1:])
return as_strided(arr, shape=new_shape, strides=new_strides)
如果您将一维数组传递给上述函数,它将返回一个二维视图到该数组中,形状为(number_of_windows, window_size)
,因此您可以计算,例如窗口平均值为:
win_avg = np.mean(windowed_view(arr, win_size, win_overlap), axis=-1)
例如:
>>> a = np.arange(16)
>>> windowed_view(a, 4, 2)
array([[ 0, 1, 2, 3],
[ 2, 3, 4, 5],
[ 4, 5, 6, 7],
[ 6, 7, 8, 9],
[ 8, 9, 10, 11],
[10, 11, 12, 13],
[12, 13, 14, 15]])
>>> windowed_view(a, 4, 1)
array([[ 0, 1, 2, 3],
[ 3, 4, 5, 6],
[ 6, 7, 8, 9],
[ 9, 10, 11, 12],
[12, 13, 14, 15]])
我不熟悉熊猫,但在 numpy 你会这样做(未经测试):
def overlapped_windows(x, nwin, noverlap = None):
if noverlap is None:
noverlap = nwin // 2
step = nwin - noverlap
for i in range(0, len(x) - nwin + 1, step):
window = x[i:i+nwin] #this is a view, not a copy
y = window * hann(nwin)
#your code here with y
这是从一些旧代码中提取的,用于计算平均 PSD,您通常使用半重叠窗口进行处理。请注意,这window
是数组 x 的“视图”,这意味着它不会复制任何数据(非常快,所以可能很好),并且如果您修改window
,您也会修改x
(所以不要这样做window = hann * window
)。
从 numpy 1.20(几个月前发布)开始,有一个新的、更稳定的实现:
要使用窗口大小为 3 且步幅为 2 的移动窗口,只需执行以下操作(来自文档):
x = np.arange(7)
sliding_window_view(x, 3)[::2, :]
我在这里查看响应,并尝试使用 as_strided。它似乎与我拥有的浮点数组一起工作得很好。但是后来我尝试在一个布尔数组上使用它,我得到了垃圾。即使在转换为整数或浮点数之后,同样的事情(不同的垃圾)。但是使用sliding_window_view 可以。是的,您首先必须生成整个数组,然后将其子集化,这是一个内存猪,但它可以满足我的需要。