我目前正在尝试创建和训练神经网络以使用 MFCC 执行简单的语音分类。
目前,我为每个样本使用 26 个系数,总共有 5 个不同的类别——这些是五个不同的单词,音节数量不同。
虽然每个样本的长度为 2 秒,但我不确定如何处理用户可以非常缓慢或非常快速地发音的情况。例如,在 1 秒内说出的单词“电视”与在两秒内说出的单词产生不同的系数。
任何有关如何解决此问题的建议将不胜感激!
我目前正在尝试创建和训练神经网络以使用 MFCC 执行简单的语音分类。
目前,我为每个样本使用 26 个系数,总共有 5 个不同的类别——这些是五个不同的单词,音节数量不同。
虽然每个样本的长度为 2 秒,但我不确定如何处理用户可以非常缓慢或非常快速地发音的情况。例如,在 1 秒内说出的单词“电视”与在两秒内说出的单词产生不同的系数。
任何有关如何解决此问题的建议将不胜感激!
我目前正在尝试创建和训练神经网络以使用 MFCC 执行简单的语音分类。
简单的神经网络没有输入长度不变性,也不允许分析时间序列。
对于像一系列 MFCC 帧这样的时间序列的分类,您可以使用具有时间不变性的分类器。例如,您可以使用结合隐马尔可夫模型 (ANN-HMM) 的神经网络、具有隐马尔可夫模型的高斯混合模型 (GMM-HMM) 或递归神经网络 (RNN)。RNN 的 Matlab 实现在这里。Theano 实现也可用。您可以在 Google 中找到这些结构的详细说明。
语音识别实现不是一件简单的事情,最好使用现有的软件比如CMUSphinx