signal-processing - 如何从音频流中检测语音

Question

我需要确定某人何时在音频流中讲话。我应用了汉明窗并计算了 FFT。我如何从这里检测人声？

score 2 · Accepted Answer

如果您想尝试自己的语音活动检测算法，可以使用 FFT 作为初始阶段。接下来，您可能想尝试减去任何具有特征的固定光谱噪声背景。然后您可以尝试使用修改后的 FFT 结果来计算倒谱（或一些加权倒谱系数）以进行特征提取。然后，您可以对决定提取的任何特征向量进行一些统计模式匹配，并将结果提供给决策算法。

上述每个步骤都可能是一个研究课题，一个好的实施可能涉及研究数十篇已发表的研究论文，这些论文也许可以在您的大学图书馆中找到。

score 1 · Accepted Answer

1

您不需要为此执行 FFT，您需要实现语音活动检测算法。

于 2011-12-03T19:36:29.007 回答

2 回答 2