2

我对 Matlab 很陌生,我正在尝试编写一个简单的基于频率的语音检测算法。最终目标是在 wav 文件上运行脚本,并让它输出每个语音片段的开始/结束时间。如果使用代码:

fr = 128;
[ audio, fs, nbits ] = wavread(audioPath);
spectrogram(audio,fr,120,fr,fs,'yaxis')

我得到了一个有用的频率强度与时间图,如下所示:

在此处输入图像描述

通过观察它,很容易看出语音何时发生。我可以编写一个算法来自动化检测过程,方法是查看每个 x 轴帧,找出哪些频率占主导地位(具有最高强度),测试主导频率以查看它们中是否有足够的频率高于某个强度阈值(图上黄色和红色之间的差异),然后将该帧标记为语音或非语音。一旦标记了帧,就很容易获得每个语音片段的开始/结束时间。

我的问题是我不知道如何访问这些数据。我可以使用以下代码:

[S,F,T,P] = spectrogram(audio,fr,120,fr,fs);

获取频谱图的所有功能,但该代码的结果对我来说没有任何意义。S、F、T、P 数组和矩阵的边界与我在图表上看到的任何内容都不相关。我已经查看了帮助文件和 API,但是当他们开始抛出算法名称和首字母缩略词时,我感到很困惑——我的 DSP 背景非常有限。

我怎样才能得到这个频谱图分析的每一帧的频率强度值数组?我可以从那里弄清楚其余的,我只需要知道如何获取适当的数据。

4

4 回答 4

2

您正在尝试做的事情称为语音活动检测。有很多方法可以解决这个问题,最简单的可能是一个简单的带通滤波器,它通过语音最强的频率,即 1kHz 和 8kHz 之间。然后,您可以将总信号能量与带通限制进行比较,如果大部分能量都在语音频带中,则将帧分类为语音。这是一种选择,但也有其他选择。

要获得峰值频率,您可以使用 FFT 获取频谱,然后使用peakdetect.m。但这是一种非常幼稚的方法,因为您会得到很多峰值,属于基本正弦的谐波频率。

从理论上讲,您应该使用某种倒谱(也称为频谱频谱),它将频谱中谐波的周期性降低到基频,然后将其与峰值检测一起使用。或者,您可以使用执行此操作的现有工具,例如praat

请注意,语音分析通常在大约 30 毫秒的帧上完成,步长为 10 毫秒。您可以通过确保在 N 个连续帧中检测到共振峰来进一步过滤掉错误检测。

于 2013-06-09T09:08:15.757 回答
1

看看 STFT(短时傅立叶变换)或(甚至更好)DWT(离散小波变换),它们都将估计数据块(窗口)中的频率内容,如果你想检测,这就是你所需要的某些(“语音”)频率的幅度突然变化。

不要使用 FFT,因为它会计算整个信号持续时间内的相对频率内容,因此无法确定信号中何时出现某个频率。

于 2013-04-23T13:27:57.370 回答
1

为什么不使用fft`fftshift

  %% Time specifications:
   Fs = 100;                      % samples per second
   dt = 1/Fs;                     % seconds per sample
   StopTime = 1;                  % seconds
   t = (0:dt:StopTime-dt)';
   N = size(t,1);
   %% Sine wave:
   Fc = 12;                       % hertz
   x = cos(2*pi*Fc*t);
   %% Fourier Transform:
   X = fftshift(fft(x));
   %% Frequency specifications:
   dF = Fs/N;                      % hertz
   f = -Fs/2:dF:Fs/2-dF;           % hertz
   %% Plot the spectrum:
   figure;
   plot(f,abs(X)/N);
   xlabel('Frequency (in hertz)');
   title('Magnitude Response');

为什么要使用复杂的东西?

在https://dsp.stackexchange.com/questions/1522/simplest-way-of-detecting-where-audio-envelopes-start-and-stop中可以找到一个不错的完整解决方案

于 2012-11-27T21:15:13.467 回答
0

如果您仍然使用内置的 STFT 函数,那么要绘制最大值,您可以使用以下命令

plot(T,(floor(abs(max(S,[],1)))))
于 2014-11-14T23:07:25.827 回答