1

我正在为诸如从麦克风记录的音频数据中恢复原始频率之类的问题而战。

对不起我的英语不好...

让我更清楚地解释这个问题。我使用以下代码生成了一些特定的频率:

void genTone() {
    numSamples = (int)(0.2 * sampleRate);   //duration * sampleRate;
    sample = new double[numSamples];
    generatedSnd = new byte[2 * numSamples];

    // fill out the array
    for (int i = 0; i < numSamples; ++i) {
        sample[i] = Math.sin(2 * Math.PI * i / (sampleRate/freqOfTone));
    }

    // convert to 16 bit pcm sound array
    // assumes the sample buffer is normalised.
    int idx = 0;
    for (final double dVal : sample) {
        // scale to maximum amplitude
        final short val = (short) ((dVal * 32767));
        // in 16 bit wav PCM, first byte is the low order byte
        generatedSnd[idx++] = (byte) (val & 0x00ff);
        generatedSnd[idx++] = (byte) ((val & 0xff00) >>> 8);
    }
}

我已经使用以下代码 II 录制了声音:

private void recordInBackground() {
    int read = 0;
    while (isRecording) {
        short data[] = new short[bufferSize];   // bufferSize = 4096

        read = audioRecorder.read(data, 0, bufferSize);
        if (read != AudioRecord.ERROR_INVALID_OPERATION) {
            try {
                float tempHammingRes[] = null;
                hamming(bufferSize);

                Complex[] complexs = new Complex[bufferSize];
                Complex[] results = new Complex[bufferSize];
                for (int i = 0; i < bufferSize; ++i) {
                    data[i] /= 32767; 
                    tempHammingRes[i] = tempHammingRes[i] * data[i];
                    complexs[i]= new Complex(tempHammingRes[i], 0);
                }

                results = FFT.fft(complexs);

                double highScore = 0.0;
                int freq = 1;

                for (int line = 1; line < bufferSize; ++line) {
                    double magnitude = Math.log(results[line].abs() + 1) / Math.log(10.0)*20.0;
                    if (magnitude > highScore) {
                        highScore = magnitude;
                        freq = line;
                    }
                }

                double currentFrequence = ComputeFrequency(freq, bufferSize);

                Log.d(TAG, "highScore = " + highScore + " freq = " + currentFrequence);

            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }


}

现在,我有一个问题,在代码块 II 中,在连续 FFT 计算间隔中会获得相同的频率。例如,代码块 II 输出了一些日志:

highScore = 151.77662972416104 freq = 7999.5849609375 // 第一个 8000

highScore = 146.33073029829455 freq = 7999.5849609375 // 秒 8000

highScore = 146.44411729898255 频率 = 9000.87890625

highScore = 144.43481176938155 频率 = 9000.87890625

highScore = 142.78046692784702 频率 = 10002.1728515625

highScore = 141.91874938214298 频率 = 10002.1728515625

highScore = 136.47269911015098 频率 = 11003.466796875

highScore = 136.6873278405228 频率 = 11003.466796875

我只产生了一个 8khz,但我得到了两个声音频率。我还减少了输出音调的持续时间或增加了录音机的输入缓冲区大小。不幸的是,这对我想做的事没有帮助..

有谁知道我是错的还是fft的输出本质上是这样的?

非常感谢您的任何回答!

4

2 回答 2

1

我在这里看到了一些潜在的问题。我可能误读了您的代码,但我会提到这些事情,因为它们看起来像问题:

  1. 尽管有窗口化,FFT 总是有“旁瓣”。您选择了可能是理想的汉明窗,但您可能会看到旁瓣。你不应该这样,但是如果 genTone 和 recordInBackground 之间发生了某些事情(例如,你正在通过扬声器播放声音并重新录制它),这可能会产生足够的噪音和失真,偶尔会使旁瓣数据与主要数据一样突出数据。

  2. 看起来您一直在阅读 FFT 结果。只有 FFT 的前半部分会包含相关结果,后半部分是前半部分的镜像。由于轻微的数值错误,您可能会发现后半部分的结果大于前半部分。此问题还表明您可能计算错误的频率。我在这里介绍了这个(还有更多!):使用 fft aka pitch 进行频率检测

  3. 您对输出的数据进行位反转,但不输入。也许这很好,这取决于您在做什么,但是从这么多的代码来看它是错误的。FFT 可以“看穿”这一点,但您实际上已经产生了大量的噪音。

我还注意到您正在尝试计算 FFT 结果绝对值的对数。这只会使您的计算花费更长的时间。出于您的目的,magnitude = results[line].abs() 很好。

于 2012-09-10T14:33:24.690 回答
0

AudioRecorder 与您的输入信号不同步。因此,您从中获得的数据块很可能会将您的音调分成两部分。这就是为什么您会获得两个具有相同频率的连续日志。

于 2012-10-02T20:35:34.687 回答