matlab - 将神经网络应用于可变长度语音段的 MFCC

Question

我目前正在尝试创建和训练神经网络以使用 MFCC 执行简单的语音分类。

目前，我为每个样本使用 26 个系数，总共有 5 个不同的类别——这些是五个不同的单词，音节数量不同。

虽然每个样本的长度为 2 秒，但我不确定如何处理用户可以非常缓慢或非常快速地发音的情况。例如，在 1 秒内说出的单词“电视”与在两秒内说出的单词产生不同的系数。

任何有关如何解决此问题的建议将不胜感激！

score 3 · Accepted Answer

我目前正在尝试创建和训练神经网络以使用 MFCC 执行简单的语音分类。

简单的神经网络没有输入长度不变性，也不允许分析时间序列。

对于像一系列 MFCC 帧这样的时间序列的分类，您可以使用具有时间不变性的分类器。例如，您可以使用结合隐马尔可夫模型 (ANN-HMM) 的神经网络、具有隐马尔可夫模型的高斯混合模型 (GMM-HMM) 或递归神经网络 (RNN)。RNN 的 Matlab 实现在这里。Theano 实现也可用。您可以在 Google 中找到这些结构的详细说明。

语音识别实现不是一件简单的事情，最好使用现有的软件比如CMUSphinx

matlab - 将神经网络应用于可变长度语音段的 MFCC

1 回答 1

Related

Reference