我正在使用梅尔频率倒谱系数实现语音识别软件。特别是系统必须识别单个指定的单词。由于音频文件,我在一个有 12 行(MFCC)和与语音帧数一样多的列的矩阵中获得了 MFCC。我取行的平均值,所以我得到一个只有 12 行的向量(第 i 行是所有帧的所有第 i 个 MFCC 的平均值)。我的问题是如何训练分类器来检测单词?我有一个只有正样本的训练集,我从几个音频文件中获得的 MFCC(同一个词的几个注册)。
问问题
1554 次
1 回答
1
我取行的平均值,所以我得到一个只有 12 行的向量(第 i 行是所有帧的所有第 i 个 MFCC 的平均值)。
这是一个非常糟糕的主意,因为您丢失了有关单词的所有信息,您需要分析整个 mfcc 序列,而不是其中的一部分
我的问题是如何训练分类器来检测单词?
简单的形式是 GMM 分类器,您可以在此处查看:
在更复杂的形式中,您需要学习更复杂的模型,例如 HMM。您可以从像这样的教科书中了解更多关于 HMM 的信息
http://www.amazon.com/Fundamentals-Speech-Recognition-Lawrence-Rabiner/dp/0130151572
于 2015-02-17T13:46:07.350 回答