我正在尝试使用 MFCC、它们的 delta 和 delta-delta 从语音中构建一个基本的情绪检测器。许多论文谈到通过在这些特征上训练 GMM 来获得良好的准确性。
我似乎找不到一个现成的包来做同样的事情。我确实玩过 Python 中的 scilearn、Matlab 中的 Voicebox 和类似工具包以及 Rmixmod、stochmod、mclust、mixtools 和 R 中的其他一些包。从训练数据计算 GMM 的最佳库是什么?
我正在尝试使用 MFCC、它们的 delta 和 delta-delta 从语音中构建一个基本的情绪检测器。许多论文谈到通过在这些特征上训练 GMM 来获得良好的准确性。
我似乎找不到一个现成的包来做同样的事情。我确实玩过 Python 中的 scilearn、Matlab 中的 Voicebox 和类似工具包以及 Rmixmod、stochmod、mclust、mixtools 和 R 中的其他一些包。从训练数据计算 GMM 的最佳库是什么?
具有挑战性的问题是训练数据,其中包含嵌入特征集中的情感信息。在测试信号中应该使用封装情绪的相同特征。使用 GMM 进行测试只会作为您的通用背景模型好。根据我通常使用 GMM 的经验,您只能区分男性女性和一些独特的演讲者。简单地将 MFCC 输入 GMM 是不够的,因为 GMM 不保存时变信息。因为除了频率变化 MFCC 参数之外,情感语音还包含时变参数,例如音调和音调随时间段的变化。我并不是说以目前的技术状态不可能,而是以一种好的方式挑战。
如果你想使用 Python,这里是著名的语音识别工具包 Sphinx 中的代码。
http://sourceforge.net/p/cmusphinx/code/HEAD/tree/trunk/sphinxtrain/python/cmusphinx/gmm.py