3

我已经阅读了 HMM 和 MFCC 的一些期刊和论文,但我仍然对它如何逐步使用我的数据集(句子数据集的音频)感到困惑。

我的数据集示例(音频形式):

  • 你好,早上好
  • 祝你考试顺利
  • 等关于 343 个音频数据和 20 个扬声器(6800 个音频数据)

据我所知 :

  1. 我的句子数据集用于获取转换概率
  2. 嗯状态是音素
  3. 39 个 MFCC 特征用于训练 HMM 模型

我的问题:

  1. 我需要将我的句子切成单词还是只使用句子来训练 HMM 模型?
  2. 我需要 train 的音素数据集吗?如果是,我是否也需要使用 HMM 来训练它?如果不是我的程序如何识别 HMM 预测输入的音素?
  3. 我必须先做哪些步骤?

注意:我正在使用 python,我使用 hmmlearn 和 python_speech_features 作为我的库。

4

1 回答 1

1
  1. 我需要将我的句子切成单词还是只使用句子来训练 HMM 模型?

理论上你只需要句子和音素。但是使用孤立的单词可能对您的模型有用(它会增加训练数据的大小)

  1. 我需要 train 的音素数据集吗?如果是,我是否也需要使用 HMM 来训练它?如果不是我的程序如何识别 HMM 预测输入的音素?

你需要音素,否则如果没有任何孤立音素的例子,你的模型将很难找到正确的音素分割。您应该首先在孤立的音素上训练您的 HMM 状态,然后添加其余数据。如果您有足够的数据,您的模型可能能够在没有孤立音素示例的情况下学习,但我不会在这一点上击败。

  1. 我必须先做哪些步骤?

构建您的音素示例并使用它们来训练一个简单的 HMM 模型,您不会对音素之间的转换进行建模。一旦你的隐藏状态有了一些关于音素的信息,你就可以继续对孤立的单词和句子进行训练。

于 2018-07-04T07:15:07.843 回答