android - Android音频FFT显示基频

Question

我一直在研究一个显示输入信号基频的 Android 项目（作为调谐器）。我已经成功实现了 AudioRecord 类并从中获取数据。但是，我很难对这些数据执行 FFT 以获得输入信号的基频。我一直在看这里的帖子，并在 Java和Complex 类中使用FFT来配合它。

我已经成功地使用了 Java 中 FFT 中的 FFT 函数，但我不确定我是否获得了正确的结果。对于 FFT 的幅度（sqrt[re re+im im]），我得到的值开始很高，大约 15000 Hz，然后慢慢减小到大约 300 Hz。似乎不对。

此外，就来自麦克风的原始数据而言，数据似乎很好，除了前 50 个左右的值始终是数字 3，除非我在应用程序中再次按下调谐按钮，然后我才开始15. 这正常吗？

这是我的一些代码。

首先，我使用以下代码将短数据（从麦克风获得）转换为双精度数据，该代码来自我一直在查看的帖子。这段代码我不完全理解，但我认为它有效。

//Conversion from short to double
double[] micBufferData = new double[bufferSizeInBytes];//size may need to change
final int bytesPerSample = 2; // As it is 16bit PCM
final double amplification = 1.0; // choose a number as you like
for (int index = 0, floatIndex = 0; index < bufferSizeInBytes - bytesPerSample + 1; index += bytesPerSample, floatIndex++) {
    double sample = 0;
    for (int b = 0; b < bytesPerSample; b++) {
        int v = audioData[index + b];
        if (b < bytesPerSample - 1 || bytesPerSample == 1) {
            v &= 0xFF;
        }
        sample += v << (b * 8);
    }
    double sample32 = amplification * (sample / 32768.0);
    micBufferData[floatIndex] = sample32;
}

然后代码继续如下：

//Create Complex array for use in FFT
Complex[] fftTempArray = new Complex[bufferSizeInBytes];
for (int i=0; i<bufferSizeInBytes; i++)
{
    fftTempArray[i] = new Complex(micBufferData[i], 0);
}

//Obtain array of FFT data
final Complex[] fftArray = FFT.fft(fftTempArray);
final Complex[] fftInverse = FFT.ifft(fftTempArray);

//Create an array of magnitude of fftArray
double[] magnitude = new double[fftArray.length];
for (int i=0; i<fftArray.length; i++){
    magnitude[i]= fftArray[i].abs();
}


fft.setTextColor(Color.GREEN);
fft.setText("fftArray is "+ fftArray[500] +" and fftTempArray is "+fftTempArray[500] + " and fftInverse is "+fftInverse[500]+" and audioData is "+audioData[500]+ " and magnitude is "+ magnitude[1] + ", "+magnitude[500]+", "+magnitude[1000]+" Good job!");
for(int i = 2; i < samples; i++){
    fft.append(" " + magnitude[i] + " Hz");
}

最后一点只是为了检查我得到了什么值（并让我保持清醒！）。在上面提到的帖子中，它谈到了需要采样频率并给出了以下代码：

private double ComputeFrequency(int arrayIndex) {
    return ((1.0 * sampleRate) / (1.0 * fftOutWindowSize)) * arrayIndex;
}

如何实现此代码？我真的不明白 fftOutWindowSize 和 arrayIndex 来自哪里？

任何帮助是极大的赞赏！

达斯汀

score 3 · Accepted Answer

最近我正在做一个几乎相同的项目。可能您不再需要任何帮助，但无论如何我都会给出我的想法。也许将来有人需要这个。

我不确定 short to double 函数是否有效，我也不明白那段代码。它是为字节到双重转换而编写的。
在代码中："double[] micBufferData = new double[bufferSizeInBytes];"我认为的大小micBufferData应该是“ bufferSizeInBytes / 2”，因为每个样本需要两个字节，而的大小micBufferData应该是样本号。
FFT 算法确实需要 FFT 窗口大小，并且它必须是 2 的幂的数字。但是，许多算法可以接收任意数字作为输入，剩下的就交给它了。在那些算法的文档中应该有输入的要求。在您的情况下，复杂数组的大小可以是 FFT 算法的输入。而且我真的不知道 FFT 算法的细节，但我认为不需要逆算法。
要使用您最后给出的代码，您应该首先在样本数组中找到峰值索引。我使用双数组而不是复杂数组作为输入，所以在我的情况下，它类似于：double maxVal = -1;int maxIndex = -1;
```
for( int j=0; j < mFftSize / 2; ++j ) {
    double v = fftResult[2*j] * fftResult[2*j] + fftResult[2*j+1] * fftResult[2*j+1];
    if( v > maxVal ) {
        maxVal = v;
        maxIndex = j;
    }
}
```
2*j 是实部，2*j+1 是虚部。maxIndex是您想要的峰值幅度的索引（此处有更多详细信息），并将其用作ComputeFrequency函数的输入。返回值是您想要的样本数组的频率。

希望它可以帮助某人。

score 2 · Accepted Answer

您应该根据时间与频率分辨率的要求来选择 FFT 窗口大小，而不仅仅是在创建 FFT 临时数组时使用音频缓冲区大小。

数组索引是您的 int i，如您的幅度 [i] 打印语句中使用的那样。

音乐的基本音高频率通常与 FFT 峰值幅度不同，因此您可能需要研究一些音高估计算法。

score 2 · Accepted Answer

我怀疑你得到的奇怪结果是因为你可能需要解压 FFT。如何完成这将取决于您使用的库（例如，有关如何在 GSL 中打包的文档，请参见此处）。打包可能意味着实部和虚部不在您期望的数组中的位置。

对于有关窗口大小和分辨率的其他问题，如果您正在创建调谐器，那么我建议尝试大约 20 毫秒的窗口大小（例如 1024 个样本，44.1kHz）。对于调谐器，您需要相当高的分辨率，因此您可以尝试 8 或 16 倍的零填充，这将为您提供 3-6Hz 的分辨率。

android - Android音频FFT显示基频

3 回答 3

Related

Reference