10

我正在尝试开发一个简单的 C 应用程序,它可以在 WAV 文件中的给定时间戳的某个频率范围内给出 0-100 的值。

示例:我的频率范围为 44.1kHz(典型的 MP3 文件),我想将该范围分成 n 个范围(从 0 开始)。然后我需要得到每个范围的幅度,从 0 到 100。

到目前为止我所管理的:

使用 libsndfile 我现在能够读取 WAV 文件的数据。

infile = sf_open(argv [1], SFM_READ, &sfinfo);

float samples[sfinfo.frames];

sf_read_float(infile, samples, 1);

但是,我对 FFT 的理解相当有限。但我知道为了在我需要的范围内获得振幅是必需的。但是我该如何从这里继续前进?我找到了图书馆 FFTW-3,它似乎适合这个目的。

我在这里找到了一些帮助:https ://stackoverflow.com/a/4371627/1141483

并在这里查看了 FFTW 教程:http ://www.fftw.org/fftw2_doc/fftw_2.html

但由于我不确定 FFTW 的行为,我不知道从这里开始。

还有一个问题,假设您使用 libsndfile:如果您强制读取单通道(使用立体声文件),然后读取样本。那么您实际上只会读取整个文件的一半样本吗?其中一半来自通道 1,还是会自动将其过滤掉?

非常感谢您的帮助。

编辑:我的代码可以在这里看到:

double blackman_harris(int n, int N){
double a0, a1, a2, a3, seg1, seg2, seg3, w_n;
a0 = 0.35875;
a1 = 0.48829;
a2 = 0.14128;
a3 = 0.01168;

seg1 = a1 * (double) cos( ((double) 2 * (double) M_PI * (double) n) / ((double) N - (double) 1) );
seg2 = a2 * (double) cos( ((double) 4 * (double) M_PI * (double) n) / ((double) N - (double) 1) );
seg3 = a3 * (double) cos( ((double) 6 * (double) M_PI * (double) n) / ((double) N - (double) 1) );

w_n = a0 - seg1 + seg2 - seg3;
return w_n;
}

int main (int argc, char * argv [])
{   char        *infilename ;
SNDFILE     *infile = NULL ;
FILE        *outfile = NULL ;
SF_INFO     sfinfo ;


infile = sf_open(argv [1], SFM_READ, &sfinfo);

int N = pow(2, 10);

fftw_complex results[N/2 +1];
double samples[N];

sf_read_double(infile, samples, 1);


double normalizer;
int k;
for(k = 0; k < N;k++){
    if(k == 0){

        normalizer = blackman_harris(k, N);

    } else {
        normalizer = blackman_harris(k, N);
    }

}

normalizer = normalizer * (double) N/2;



fftw_plan p = fftw_plan_dft_r2c_1d(N, samples, results, FFTW_ESTIMATE);

fftw_execute(p);


int i;
for(i = 0; i < N/2 +1; i++){
    double value = ((double) sqrtf(creal(results[i])*creal(results[i])+cimag(results[i])*cimag(results[i]))/normalizer);
    printf("%f\n", value);

}



sf_close (infile) ;

return 0 ;
} /* main */
4

1 回答 1

14

那么这一切都取决于你所追求的频率范围。FFT 通过采集 2^n 个样本并为您提供 2^(n-1) 个实数和虚数来工作。我不得不承认,我对这些价值观到底代表什么感到很模糊(我有一个朋友承诺会和我一起经历这一切,而不是在他遇到财务问题时我借给他;))围绕一个圆的一个角。实际上,它们为您提供了每个频率区间的正弦和余弦的角度参数的 arccos,可以从中完美地重建原始 2^n 样本。

无论如何,这具有巨大的优势,您可以通过取实部和虚部的欧几里德距离 (sqrtf( (real * real) + (imag * imag) )) 来计算幅度。这为您提供了一个非标准化的距离值。然后可以使用该值来构建每个频带的幅度。

所以让我们订购 10 FFT (2^10)。您输入了 1024 个样本。您对这些样本进行 FFT,然后返回 512 个虚值和实值(这些值的特定顺序取决于您使用的 FFT 算法)。因此,这意味着对于 44.1Khz 音频文件,每个 bin 代表 44100/512 Hz 或每个 bin 约 86Hz。

应该从中脱颖而出的一件事是,如果您使用更多样本(在处理图像等多维信号时来自所谓的时间或空间域),您将获得更好的频率表示(在所谓的频域中)。然而,你为另一个牺牲了一个。这就是事情的发展方式,你将不得不忍受它。

基本上,您需要调整频率箱和时间/空间分辨率以获得所需的数据。

首先是一些命名法。我前面提到的 1024 个时域样本称为你的窗口。通常,在执行此类过程时,您需要将窗口滑动一些量以获得您 FFT 的下一个 1024 个样本。显而易见的做法是抽取样本 0->1023,然后是 1024->2047,依此类推。不幸的是,这并没有给出最好的结果。理想情况下,您希望在一定程度上重叠窗口,以便随着时间的推移获得更平滑的频率变化。最常见的是人们将窗口滑动一半的窗口大小。即你的第一个窗口将是 0->1023 第二个 512->1535 等等。

现在这又带来了另一个问题。虽然此信息提供了完美的逆 FFT 信号重建,但它会给您带来一个问题,即频率在某种程度上泄漏到环绕声箱中。为了解决这个问题,一些数学家(比我聪明得多)提出了窗口函数的概念。窗函数在频域中提供了更好的频率隔离,但会导致时域中的信息丢失(即,在使用窗函数 AFAIK 之后,不可能完美地重建信号)。

现在有各种类型的窗口函数,从矩形窗口(实际上对信号没有任何作用)到提供更好频率隔离的各种函数(尽管有些函数也可能会杀死您可能感兴趣的周围频率!!)。唉,没有一种尺寸适合所有人,但我是 blackmann-harris 窗口函数的忠实粉丝(对于频谱图)。我认为它给出了最好看的结果!

然而,正如我之前提到的,FFT 为您提供了一个未归一化的频谱。要归一化频谱(在计算欧几里德距离之后),您需要将所有值除以归一化因子(我在这里更详细地介绍)。

这种标准化将为您提供一个介于 0 和 1 之间的值。因此,您可以轻松地将该值乘以 100 以获得 0 到 100 的比例。

然而,这还不是结束的地方。您从中获得的频谱相当不令人满意。这是因为您正在使用线性比例查看幅度。不幸的是,人耳使用对数刻度听到。这反而会导致频谱图/频谱的外观出现问题。

为了解决这个问题,您需要将这些 0 到 1 的值(我称之为“x”)转换为分贝刻度。标准转换为20.0f * log10f( x )。然后,这将为您提供一个值,其中 1 已转换为 0,0 已转换为 -infinity。您的大小现在处于适当的对数刻度中。然而,它并不总是那么有帮助。

此时您需要查看原始样本位深度。在 16 位采样时,您会得到一个介于 32767 和 -32768 之间的值。这意味着您的动态范围是 fabsf( 20.0f * log10f( 1.0f / 65536.0f ) ) 或 ~96.33dB。所以现在我们有了这个值。

取我们从上面的 dB 计算中得到的值。将这个 -96.33 值添加到它。显然,最大幅度 (0) 现在是 96.33。现在按相同的值进行除法运算,您现在的值范围从 -infinity 到 1.0f。将下端钳位到 0,您现在有一个从 0 到 1 的范围,并将其乘以 100,您就有了最终的 0 到 100 范围。

这比我最初的意图更像一个怪物帖子,但应该为您提供如何为输入信号生成良好频谱/频谱图的良好基础。

和呼吸

进一步阅读(对于已经找到它的原始海报以外的人):

将 FFT 转换为频谱图

编辑:顺便说一句,我发现吻 FFT 更容易使用,我执行前向 fft 的代码如下:

CFFT::CFFT( unsigned int fftOrder ) :
    BaseFFT( fftOrder )
{
    mFFTSetupFwd    = kiss_fftr_alloc( 1 << fftOrder, 0, NULL, NULL );
}

bool CFFT::ForwardFFT( std::complex< float >* pOut, const float* pIn, unsigned int num )
{
    kiss_fftr( mFFTSetupFwd, pIn, (kiss_fft_cpx*)pOut );
    return true;
}
于 2012-05-17T22:00:13.847 回答