我想做语音识别的嵌入式培训。一开始,我想用三态单音素,正如论文所描述的那样,我可以将一个词或一个句子中的所有音素连接起来,形成一个复合的 hmm 模型,并对复合的 hmm 模型进行嵌入式训练。
像这张照片:
当我尝试这样做时,我感到很困惑,有一些问题让我感到困惑。
三态手机模型还有其他两种状态,开始状态和结束状态,通常只允许发生在自身状态到自身状态和自身到下一个状态的转换。那么从一个电话结束状态到下一个电话开始状态的转换应该是什么?或者连接时应该忽略开始和结束状态?我发现 HTK 食谱直接连接开始和结束状态,但是将从一个电话结束状态到下一个电话开始状态的转换设置为 1.0。
一个词可能多次包含一个音素,如何在 A(transition) 矩阵和 B(emission) 矩阵中连接同一个音素?我理解将 A 矩阵与从一个电话结束状态到下一个电话开始状态 1.0 的转换直接连接起来。B 矩阵是共享的,相同的电话状态具有相同的发射分布。
我可能有不同的词来训练。训练一个词后,得到了词中音素的三个参数:A 矩阵、B 矩阵和 Pi,如何使用这些参数训练另一个词?