signal-processing - 语音识别中的 MFCC

Question

我整个上周都在搜索 MFCC 和相关问题。现在我可以从二维向量 coff[56][12] 中的 .wav 文件中获取 MFCC 特征，比方说。12 是我要提取的系数数，56 是帧数。根据我阅读的几篇文档，我们可以使用以上12个系数来识别语音（特别是我想识别单词“一”，“二”......到“十”）。但是现在我得到了 12 帧中的 56 帧，那么我应该使用 56 帧中的哪一个？

如果我有什么问题，请帮助我！！！

score 9 · Accepted Answer

您正在跳过一些关键步骤。让我简要解释一下它应该如何工作。语音数据最初是离散信号。你把它切成被称为“框架”的小块，以至于每块都希望包含不超过一部手机。通常帧会重叠，以免丢失任何重要信息。然后您提取特征 - MFCC 并使用 Hidden Makov 模型搜索包含多个帧的最可能的单词。这时候你还需要一个单词发音词典和声学模型。在下一个级别，您使用一个语言模型来描述可以构建单词的句子，并获得最终假设。这是非常抽象的描述，因此需要更深入地回顾解码的每个步骤。

signal-processing - 语音识别中的 MFCC

1 回答 1

Related

Reference