ios - 来自 AVAudioPCMBuffer 的频谱图在 Swift 中使用 Accelerate 框架

Question

我正在尝试从AVAudioPCMBufferSwift 中生成频谱图。我在 an 上安装一个水龙头AVAudioMixerNode并接收带有音频缓冲区的回调。我想将缓冲区中的信号转换为[Float:Float]字典，其中键表示频率，值表示相应频率上音频的幅度。

我尝试使用 Apple 的 Accelerate 框架，但我得到的结果似乎令人怀疑。我确定这只是我转换信号的方式。

我查看了这篇博文以供参考。

这是我所拥有的：

self.audioEngine.mainMixerNode.installTapOnBus(0, bufferSize: 1024, format: nil, block: { buffer, when in
    let bufferSize: Int = Int(buffer.frameLength)

    // Set up the transform
    let log2n = UInt(round(log2(Double(bufferSize))))
    let fftSetup = vDSP_create_fftsetup(log2n, Int32(kFFTRadix2))

    // Create the complex split value to hold the output of the transform
    var realp = [Float](count: bufferSize/2, repeatedValue: 0)
    var imagp = [Float](count: bufferSize/2, repeatedValue: 0)
    var output = DSPSplitComplex(realp: &realp, imagp: &imagp)

    // Now I need to convert the signal from the buffer to complex value, this is what I'm struggling to grasp.
    // The complexValue should be UnsafePointer<DSPComplex>. How do I generate it from the buffer's floatChannelData?
    vDSP_ctoz(complexValue, 2, &output, 1, UInt(bufferSize / 2))

    // Do the fast Fournier forward transform
    vDSP_fft_zrip(fftSetup, &output, 1, log2n, Int32(FFT_FORWARD))

    // Convert the complex output to magnitude
    var fft = [Float](count:Int(bufferSize / 2), repeatedValue:0.0)
    vDSP_zvmags(&output, 1, &fft, 1, vDSP_length(bufferSize / 2))

    // Release the setup
    vDSP_destroy_fftsetup(fftsetup)

    // TODO: Convert fft to [Float:Float] dictionary of frequency vs magnitude. How?
})

我的问题是

如何将buffer.floatChannelDatato转换UnsafePointer<DSPComplex>为传递给vDSP_ctoz函数？是否有不同/更好的方法来做到这一点，甚至可以绕过vDSP_ctoz？
如果缓冲区包含来自多个通道的音频，这会有所不同吗？缓冲音频通道数据是否交错时有何不同？
如何将fft数组中的索引转换为以 Hz 为单位的频率？
还有什么我可能做错了吗？

更新

谢谢大家的建议。我最终按照接受的答案中的建议填充了复杂的数组。当我绘制值并在音叉上播放 440 Hz 音调时，它会准确记录它应该在哪里。

这是填充数组的代码：

var channelSamples: [[DSPComplex]] = []
for var i=0; i<channelCount; ++i {
    channelSamples.append([])
    let firstSample = buffer.format.interleaved ? i : i*bufferSize
    for var j=firstSample; j<bufferSize; j+=buffer.stride*2 {
        channelSamples[i].append(DSPComplex(real: buffer.floatChannelData.memory[j], imag: buffer.floatChannelData.memory[j+buffer.stride]))
    }
}

然后该channelSamples数组为每个通道保存单独的样本数组。

为了计算大小，我使用了这个：

var spectrum = [Float]()
for var i=0; i<bufferSize/2; ++i {
    let imag = out.imagp[i]
    let real = out.realp[i]
    let magnitude = sqrt(pow(real,2)+pow(imag,2))
    spectrum.append(magnitude)
}

score 3 · Accepted Answer

哈克方式：你可以只投射一个浮点数组。reals 和 imag 值一个接一个地去的地方。
这取决于音频是否交错。如果它是交错的（大多数情况下）左右通道在阵列中，STRIDE 2
在您的情况下，最低频率是 1024 个样本周期的频率。如果是 44100kHz，它是 ~23ms，频谱的最低频率将是 1/(1024/44100) (~43Hz)。下一个频率将是这个频率的两倍（~86Hz），依此类推。

score 1 · Accepted Answer

4：您已在音频总线上安装了回调处理程序。这很可能以实时线程优先级和频繁运行。您不应该做任何有可能阻塞的事情（它可能会导致优先级反转和音频故障）：

分配内存（realp, imagp-[Float](.....)是 - 的简写Array[float]，很可能分配在堆上`。预先分配这些
调用冗长的操作，例如vDSP_create_fftsetup()- 它也会分配内存并对其进行初始化。同样，您可以在函数之外分配一次。

ios - 来自 AVAudioPCMBuffer 的频谱图在 Swift 中使用 Accelerate 框架

我的问题是

更新

2 回答 2

Related

Reference