python - Pandas 中的窗口重叠

Question

在 pandas 中，有几种方法可以在给定窗口中操作数据（例如pd.rolling_mean，或pd.rolling_std。）但是，我想设置一个窗口重叠，我认为这是一个非常标准的要求。例如，在下图中，您可以看到一个包含 256 个样本和重叠 128 个样本的窗口。

如何使用 Pandas 或 Numpy 中包含的优化方法来做到这一点？

score 9 · Accepted Answer

使用as_strided你会做这样的事情：

import numpy as np
from numpy.lib.stride_tricks import as_strided

def windowed_view(arr, window, overlap):
    arr = np.asarray(arr)
    window_step = window - overlap
    new_shape = arr.shape[:-1] + ((arr.shape[-1] - overlap) // window_step,
                                  window)
    new_strides = (arr.strides[:-1] + (window_step * arr.strides[-1],) +
                   arr.strides[-1:])
    return as_strided(arr, shape=new_shape, strides=new_strides)

如果您将一维数组传递给上述函数，它将返回一个二维视图到该数组中，形状为(number_of_windows, window_size)，因此您可以计算，例如窗口平均值为：

win_avg = np.mean(windowed_view(arr, win_size, win_overlap), axis=-1)

例如：

>>> a = np.arange(16)
>>> windowed_view(a, 4, 2)
array([[ 0,  1,  2,  3],
       [ 2,  3,  4,  5],
       [ 4,  5,  6,  7],
       [ 6,  7,  8,  9],
       [ 8,  9, 10, 11],
       [10, 11, 12, 13],
       [12, 13, 14, 15]])
>>> windowed_view(a, 4, 1)
array([[ 0,  1,  2,  3],
       [ 3,  4,  5,  6],
       [ 6,  7,  8,  9],
       [ 9, 10, 11, 12],
       [12, 13, 14, 15]])

score 2 · Accepted Answer

我不熟悉熊猫，但在 numpy 你会这样做（未经测试）：

def overlapped_windows(x, nwin, noverlap = None):
    if noverlap is None:
        noverlap = nwin // 2
    step = nwin - noverlap
    for i in range(0, len(x) - nwin + 1, step):
        window = x[i:i+nwin] #this is a view, not a copy
        y = window * hann(nwin)
        #your code here with y

这是从一些旧代码中提取的，用于计算平均 PSD，您通常使用半重叠窗口进行处理。请注意，这window是数组 x 的“视图”，这意味着它不会复制任何数据（非常快，所以可能很好），并且如果您修改window，您也会修改x（所以不要这样做window = hann * window）。

score 1 · Accepted Answer

从 numpy 1.20（几个月前发布）开始，有一个新的、更稳定的实现：

https://numpy.org/doc/stable/reference/generated/numpy.lib.stride_tricks.sliding_window_view.html#numpy.lib.stride_tricks.sliding_window_view

要使用窗口大小为 3 且步幅为 2 的移动窗口，只需执行以下操作（来自文档）：

x = np.arange(7)
sliding_window_view(x, 3)[::2, :]

我在这里查看响应，并尝试使用 as_strided。它似乎与我拥有的浮点数组一起工作得很好。但是后来我尝试在一个布尔数组上使用它，我得到了垃圾。即使在转换为整数或浮点数之后，同样的事情（不同的垃圾）。但是使用sliding_window_view 可以。是的，您首先必须生成整个数组，然后将其子集化，这是一个内存猪，但它可以满足我的需要。

python - Pandas 中的窗口重叠

3 回答 3

Related

Reference