python - 如何使用音频句子数据集训练 HMM 进行语音识别？

Question

我已经阅读了 HMM 和 MFCC 的一些期刊和论文，但我仍然对它如何逐步使用我的数据集（句子数据集的音频）感到困惑。

我的数据集示例（音频形式）：

据我所知：

我的问题：

注意：我正在使用 python，我使用 hmmlearn 和 python_speech_features 作为我的库。

score 1 · Accepted Answer

理论上你只需要句子和音素。但是使用孤立的单词可能对您的模型有用（它会增加训练数据的大小）

你需要音素，否则如果没有任何孤立音素的例子，你的模型将很难找到正确的音素分割。您应该首先在孤立的音素上训练您的 HMM 状态，然后添加其余数据。如果您有足够的数据，您的模型可能能够在没有孤立音素示例的情况下学习，但我不会在这一点上击败。

构建您的音素示例并使用它们来训练一个简单的 HMM 模型，您不会对音素之间的转换进行建模。一旦你的隐藏状态有了一些关于音素的信息，你就可以继续对孤立的单词和句子进行训练。

1 回答 1