matlab - Matlab：在一帧音频数据中查找主要频率

Question

我对 Matlab 很陌生，我正在尝试编写一个简单的基于频率的语音检测算法。最终目标是在 wav 文件上运行脚本，并让它输出每个语音片段的开始/结束时间。如果使用代码：

fr = 128;
[ audio, fs, nbits ] = wavread(audioPath);
spectrogram(audio,fr,120,fr,fs,'yaxis')

我得到了一个有用的频率强度与时间图，如下所示：

在此处输入图像描述

通过观察它，很容易看出语音何时发生。我可以编写一个算法来自动化检测过程，方法是查看每个 x 轴帧，找出哪些频率占主导地位（具有最高强度），测试主导频率以查看它们中是否有足够的频率高于某个强度阈值（图上黄色和红色之间的差异），然后将该帧标记为语音或非语音。一旦标记了帧，就很容易获得每个语音片段的开始/结束时间。

我的问题是我不知道如何访问这些数据。我可以使用以下代码：

[S,F,T,P] = spectrogram(audio,fr,120,fr,fs);

获取频谱图的所有功能，但该代码的结果对我来说没有任何意义。S、F、T、P 数组和矩阵的边界与我在图表上看到的任何内容都不相关。我已经查看了帮助文件和 API，但是当他们开始抛出算法名称和首字母缩略词时，我感到很困惑——我的 DSP 背景非常有限。

我怎样才能得到这个频谱图分析的每一帧的频率强度值数组？我可以从那里弄清楚其余的，我只需要知道如何获取适当的数据。

score 2 · Accepted Answer

您正在尝试做的事情称为语音活动检测。有很多方法可以解决这个问题，最简单的可能是一个简单的带通滤波器，它通过语音最强的频率，即 1kHz 和 8kHz 之间。然后，您可以将总信号能量与带通限制进行比较，如果大部分能量都在语音频带中，则将帧分类为语音。这是一种选择，但也有其他选择。

要获得峰值频率，您可以使用 FFT 获取频谱，然后使用peakdetect.m。但这是一种非常幼稚的方法，因为您会得到很多峰值，属于基本正弦的谐波频率。

从理论上讲，您应该使用某种倒谱（也称为频谱频谱），它将频谱中谐波的周期性降低到基频，然后将其与峰值检测一起使用。或者，您可以使用执行此操作的现有工具，例如praat。

请注意，语音分析通常在大约 30 毫秒的帧上完成，步长为 10 毫秒。您可以通过确保在 N 个连续帧中检测到共振峰来进一步过滤掉错误检测。

score 1 · Accepted Answer

看看 STFT（短时傅立叶变换）或（甚至更好）DWT（离散小波变换），它们都将估计数据块（窗口）中的频率内容，如果你想检测，这就是你所需要的某些（“语音”）频率的幅度突然变化。

不要使用 FFT，因为它会计算整个信号持续时间内的相对频率内容，因此无法确定信号中何时出现某个频率。

score 1 · Accepted Answer

为什么不使用fft`fftshift：

  %% Time specifications:
   Fs = 100;                      % samples per second
   dt = 1/Fs;                     % seconds per sample
   StopTime = 1;                  % seconds
   t = (0:dt:StopTime-dt)';
   N = size(t,1);
   %% Sine wave:
   Fc = 12;                       % hertz
   x = cos(2*pi*Fc*t);
   %% Fourier Transform:
   X = fftshift(fft(x));
   %% Frequency specifications:
   dF = Fs/N;                      % hertz
   f = -Fs/2:dF:Fs/2-dF;           % hertz
   %% Plot the spectrum:
   figure;
   plot(f,abs(X)/N);
   xlabel('Frequency (in hertz)');
   title('Magnitude Response');

为什么要使用复杂的东西？

在https://dsp.stackexchange.com/questions/1522/simplest-way-of-detecting-where-audio-envelopes-start-and-stop中可以找到一个不错的完整解决方案

score 0 · Accepted Answer

如果您仍然使用内置的 STFT 函数，那么要绘制最大值，您可以使用以下命令

plot(T,(floor(abs(max(S,[],1)))))

matlab - Matlab：在一帧音频数据中查找主要频率

4 回答 4

Related

Reference