5

我知道 Google 的 WebRTC VAD 算法使用的是高斯混合模型 (GMM),但我的数学知识很薄弱,所以我不太明白这意味着什么。说它是一种基于统计的机器学习模型是否正确,对于 VAD 来说,它是经过训练可以识别语音与噪声的模型吗?

我正在写一篇论文,并且我创建了一个脚本,该脚本利用 API 来区分声音和噪音。它有效,但我需要在我的论文中从一个非常基本的层面解释它用于做出决定的机制。

最紧迫的是,我需要在某种程度上知道“积极性”设置对算法的作用。它真的只是规定了一个置信度阈值吗?它有任何声学影响吗?


更新:

我的超基本理解是:谷歌可能在一堆预先标记的“噪音”和“语音”上训练他们的模型,并存储每个的特征;然后它会获取一个未知样本,看看它更像是噪声数据还是语音数据。我不知道测量的特征是什么,但我假设至少测量了音高和幅度。

它使用 GMM 来计算它属于一个群体或另一个群体的概率。

进取心可能会设置它用于做出决定的阈值,但我并不完全知道这部分是如何工作的。

相关代码在这里:https ://chromium.googlesource.com/external/webrtc/+/refs/heads/master/common_audio/vad/vad_core.c

“aggressiveness”设置决定了以下常数(我显示模式 0 和 3 进行比较):

// Constants used in WebRtcVad_set_mode_core().
//
// Thresholds for different frame lengths (10 ms, 20 ms and 30 ms).
//
// Mode 0, Quality.
static const int16_t kOverHangMax1Q[3] = { 8, 4, 3 };
static const int16_t kOverHangMax2Q[3] = { 14, 7, 5 };
static const int16_t kLocalThresholdQ[3] = { 24, 21, 24 };
static const int16_t kGlobalThresholdQ[3] = { 57, 48, 57 };

// Mode 3, Very aggressive.
static const int16_t kOverHangMax1VAG[3] = { 6, 3, 2 };
static const int16_t kOverHangMax2VAG[3] = { 9, 5, 3 };
static const int16_t kLocalThresholdVAG[3] = { 94, 94, 94 };
static const int16_t kGlobalThresholdVAG[3] = { 1100, 1050, 1100 };

我不太明白悬垂和本地/全局阈值是如何发挥作用的。这些是严格的统计参数吗?

4

1 回答 1

5

跟踪代码,您会看到上面列出的预设 4 个值,它们根据“积极性”而变化:kOverHangMax{1,2}*, kLocalThreshold*, kGlobalThreshold*这些值映射到这 4 个内部数组(以积极性为索引):

self->over_hang_max_1[], self->over_hang_max_2[], self->individual[], self->total[]

进一步查看第 158 行vad_core.c,我们看到根据帧长度使用不同的值。是正在分析的音频的frame_length“原子”或“块”:

// Set various thresholds based on frame lengths (80, 160 or 240 samples).
  if (frame_length == 80) {
    overhead1 = self->over_hang_max_1[0];
    overhead2 = self->over_hang_max_2[0];
    individualTest = self->individual[0];
    totalTest = self->total[0];
  } else if (frame_length == 160) {
    overhead1 = self->over_hang_max_1[1];
    overhead2 = self->over_hang_max_2[1];
    individualTest = self->individual[1];
    totalTest = self->total[1];
  } else {
    overhead1 = self->over_hang_max_1[2];
    overhead2 = self->over_hang_max_2[2];
    individualTest = self->individual[2];
    totalTest = self->total[2];
  }

直觉

因此,音频块(240 个样本)越大,算法就越“激进”,而 80 个样本帧越小,“攻击性越低”:但这是为什么呢?直觉是什么?

调用代码(使用)vad_core为它提供frames_length了音频块。因此,如果您正在 VAD-ing 的音频文件长 10 分钟,那么该音频上的滑动窗口将生成frame_length块并将其传递给此代码。

音频以 8000Hz 的采样率运行,当frame_length它很小(80)时,分辨率(10ms)是细粒度的,VAD 信号将非常精确。变化将被准确跟踪,VAD 估计将是“合理的”......当frame_length较大(240)时,分辨率更“粗略”,VAD 信号将不太协调,只有微小的(<30 毫秒)变化信号的语音活动......因此“不那么谨慎”。

因此,比起攻击性,我更愿意谈论它如何“谨慎”或“自信地”跟踪它正在估计的潜在语音信号。

我希望这有助于推理它在做什么。至于值本身,它们只是算法细节,由于不同大小的音频帧而有所不同。

于 2020-01-28T19:39:57.310 回答