我已经阅读了 HMM 和 MFCC 的一些期刊和论文,但我仍然对它如何逐步使用我的数据集(句子数据集的音频)感到困惑。
我的数据集示例(音频形式):
- 你好,早上好
- 祝你考试顺利
- 等关于 343 个音频数据和 20 个扬声器(6800 个音频数据)
据我所知 :
- 我的句子数据集用于获取转换概率
- 嗯状态是音素
- 39 个 MFCC 特征用于训练 HMM 模型
我的问题:
- 我需要将我的句子切成单词还是只使用句子来训练 HMM 模型?
- 我需要 train 的音素数据集吗?如果是,我是否也需要使用 HMM 来训练它?如果不是我的程序如何识别 HMM 预测输入的音素?
- 我必须先做哪些步骤?
注意:我正在使用 python,我使用 hmmlearn 和 python_speech_features 作为我的库。