speech-recognition - 如何将电话 hmm 模型连接到复合词或句子 hmm 模型

问问题 2018-05-04T09:34:13.973

228 次

我想做语音识别的嵌入式培训。一开始，我想用三态单音素，正如论文所描述的那样，我可以将一个词或一个句子中的所有音素连接起来，形成一个复合的 hmm 模型，并对复合的 hmm 模型进行嵌入式训练。

像这张照片：

当我尝试这样做时，我感到很困惑，有一些问题让我感到困惑。

三态手机模型还有其他两种状态，开始状态和结束状态，通常只允许发生在自身状态到自身状态和自身到下一个状态的转换。那么从一个电话结束状态到下一个电话开始状态的转换应该是什么？或者连接时应该忽略开始和结束状态？我发现 HTK 食谱直接连接开始和结束状态，但是将从一个电话结束状态到下一个电话开始状态的转换设置为 1.0。
一个词可能多次包含一个音素，如何在 A(transition) 矩阵和 B(emission) 矩阵中连接同一个音素？我理解将 A 矩阵与从一个电话结束状态到下一个电话开始状态 1.0 的转换直接连接起来。B 矩阵是共享的，相同的电话状态具有相同的发射分布。
我可能有不同的词来训练。训练一个词后，得到了词中音素的三个参数：A 矩阵、B 矩阵和 Pi，如何使用这些参数训练另一个词？

0 回答 0