2

我需要确定某人何时在音频流中讲话。我应用了汉明窗并计算了 FFT。我如何从这里检测人声?

4

2 回答 2

2

如果您想尝试自己的语音活动检测算法,可以使用 FFT 作为初始阶段。接下来,您可能想尝试减去任何具有特征的固定光谱噪声背景。然后您可以尝试使用修改后的 FFT 结果来计算倒谱(或一些加权倒谱系数)以进行特征提取。然后,您可以对决定提取的任何特征向量进行一些统计模式匹配,并将结果提供给决策算法。

上述每个步骤都可能是一个研究课题,一个好的实施可能涉及研究数十篇已发表的研究论文,这些论文也许可以在您的大学图书馆中找到。

于 2011-12-03T23:43:21.540 回答
1

您不需要为此执行 FFT,您需要实现语音活动检测算法。

于 2011-12-03T19:36:29.007 回答