2

我正在尝试通过使用平均方法将固定的[Mx1]向量下采样到任何给定的[Nx1]维度。我有一个动态窗口大小,每次都会根据所需的输出数组而变化。所以,在某些情况下,我很幸运,得到了完全符合窗口大小的 int 窗口大小,有时我得到浮点数作为窗口大小。但是,我如何使用浮动大小的窗口从固定的[Mx1]向量生成[Nx1]大小的向量?

以下是我尝试过的代码:

chunk = 0.35
def fixed_meanVector(vec, chunk):
   size = (vec.size*chunk) #size of output according to the chunk
   R    = (vec.size/size) #windows size to transform array into chunk size
   pad_size = math.ceil(float(vec.size)/R)*R - vec.size
   vec_padded = np.append(vec, np.zeros(pad_size)*np.NaN)

   print "Org Vector: ",vec.size, "output Size: ",size, "Windows Size: ",R, "Padding size", pad_size
   newVec = scipy.nanmean(vec_padded.reshape(-1,R), axis=1)
   print "New Vector shape: ",newVec.shape
   return newVec

print "Word Mean of N values Similarity: ",cosine(fixed_meanVector(vector1, chunk)
                                                      ,fixed_meanVector(vector2, chunk))

输出:

New Vector shape:  (200,)
Org Vector:  400 output Size:  140.0 Windows Size:  2.85714285714 Padding  size 0.0
New Vector shape:  (200,)
0.46111661289

在上面的示例中,我需要在Nx1 ([140x1])维度下对[Mx1] ([400x1])向量进行下采样。因此,动态窗口大小[2.857x1]可用于对[Mx1]向量进行下采样。但是,在这种情况下,我得到一个[200x1]的向量作为我的输出,而不是 [140x1] 由于浮动窗口提升到面粉(2.85),它是用 -> [2x1]下采样的。填充为零,因为我的窗口大小非常适合新的[Nx1]尺寸。那么,有没有办法使用这种类型的窗口大小来对[Mx1]向量进行下采样?

4

2 回答 2

3

尽快将其矢量化是可能的,但并不自然M%N>0。因为用于构建结果数组的单元格数量不是恒定的,在您的情况下介于 3 到 4 之间。

自然的方法是遍历数组,在每个 bin 处进行调整:

在此处输入图像描述

这个想法是填充每个垃圾箱直到溢出。然后切断溢出(携带)并将其保留用于下一个垃圾箱。使用 int 算术,最后一个进位始终为空。

编码 :

def resized(data,N):
    M=data.size
    res=empty(N,data.dtype)
    carry=0
    m=0
    for n in range(N):
        sum = carry
        while m*N - n*M < M :
            sum += data[m]
            m += 1
        carry = (m-(n+1)*M/N)*data[m-1]
        sum -= carry
        res[n] = sum*N/M
    return res

测试 :

In [5]: resized(np.ones(7),3)
Out[5]: array([ 1.,  1.,  1.])

In [6]: %timeit resized(rand(400),140)
    1000 loops, best of 3: 1.43 ms per loop

它有效,但不是很快。幸运的是,您可以通过以下方式加快速度numba

from numba import jit
resized2=jit(resized)             

In [7]: %timeit resized2(rand(400),140)
1 loops, best of 3: 8.21 µs per loop

可能比任何纯numpy解决方案都快(这里是N=3*M):

IN [8]: %timeit rand(402).reshape(-1,3).mean(1)
10000 loops, best of 3: 39.2 µs per loop

请注意,如果M>N.

In [9]: resized(arange(4.),9)
Out[9]: array([ 0.  ,  0.  ,  0.75,  1.  ,  1.5 ,  2.  ,  2.25,  3.  ,  3.  ])
于 2016-03-29T21:56:47.460 回答
2

您做错了,您为所需的抽取建立了一个窗口,而不是相反。

Nyquist 先生说你不能有高于 fs/2 的 BW,否则你会有讨厌的混叠。

因此,要解决它,您不仅要“平均”,还要低通,以便 fs/2 以上的频率低于可接受的本底噪声。

MA是一种有效类型的低通滤波器,您只是将其应用于错误的阵列。

任意抽取的通常情况是。

 Upsample -> Lowpass -> Downsample

因此,为了能够从 N 到 M 个样本任意抽取,算法是:

  • 在当前样本和目标样本之间找到LCM 。
  • 采样LCM/N
  • 使用停止频率设计滤波器ws<= M/LCM
  • 采样LCM/M

你所说的平均法,是一个带有矩形窗口的 F​​IR 滤波器

如果您使用该窗口中频率响应的第一个零作为阻带,那么您可以计算所需的窗口大小 K ,如

2/K <= M/LCM

所以你必须使用大小的窗口:

ceil(2*LCM/M) = K

显然,您不需要实现所有这些。只需设计一个适当的窗口ws<= M/LCM并使用scipy.signal.resample应用它。

如果ceil应用于窗口的结果会弄乱您的结果,请不要使用矩形窗口,您可以使用大量更好的过滤器。

于 2016-03-30T07:12:47.833 回答