2

我现在正在使用 ArrayFire(OpenCL,而不是 cuda),我想知道是否有任何方法可以对一个非常大的(50M + 32 位浮点数)向量执行多个并行 1D 卷积(计算移动平均值)。我看过一些例子,但是随着最近的开源版本,一些旧的功能不起作用。窗口大小实际上很大(1k-10k)。FFT 方法(卷积的乘积)会比直接卷积更快吗?

4

0 回答 0