0

我整个上周都在搜索 MFCC 和相关问题。现在我可以从二维向量 coff[56][12] 中的 .wav 文件中获取 MFCC 特征,比方说。12 是我要提取的系数数,56 是帧数。根据我阅读的几篇文档,我们可以使用以上12个系数来识别语音(特别是我想识别单词“一”,“二”......到“十”)。但是现在我得到了 12 帧中的 56 帧,那么我应该使用 56 帧中的哪一个?

如果我有什么问题,请帮助我!!!

4

1 回答 1

9

您正在跳过一些关键步骤。让我简要解释一下它应该如何工作。语音数据最初是离散信号。你把它切成被称为“框架”的小块,以至于每块都希望包含不超过一部手机。通常帧会重叠,以免丢失任何重要信息。然后您提取特征 - MFCC 并使用 Hidden Makov 模型搜索包含多个帧的最可能的单词。这时候你还需要一个单词发音词典和声学模型。在下一个级别,您使用一个语言模型来描述可以构建单词的句子,并获得最终假设。这是非常抽象的描述,因此需要更深入地回顾解码的每个步骤。

于 2013-11-17T07:18:27.157 回答